id="id72">
Учим петь
Другой пример силы обучения с подкреплением – интересная параллель между тем, как птицы учатся петь, и тем, как дети учатся говорить. В обоих случаях сначала идет период слухового обучения, за которым следует поэтапное моторное обучение. Зебровые амадины слышат песню своего отца в начале жизни, но в течение нескольких месяцев не производят никаких звуков сами. Даже если их изолировать от отца до начала действия моторной фазы обучения, они проходят через период «суб-песни», которая совершенствуется и в конечном итоге превращается в песню отца. Зебровые амадины узнают, из какой части леса их сородич, по его песне, так же, как вы узнаете, откуда прибыл человек, по его акценту. Суть гипотезы, лежащей в основе исследования пения птиц, в том, что во время слухового обучения они изучают шаблон, который затем используют для уточнения звуков, производимых мышечной системой. Механизмы, которые отвечают за фазу моторного обучения, и у людей, и у певчих птиц находятся в базальных ганглиях, где, как мы знаем, происходит обучение с подкреплением.
В 1995 году Кенджи Дойя, постдокторант в моей лаборатории, разработал модель обучения с подкреплением для совершенствования птичьего пения (рис. 10.7). Алгоритм улучшал производительность, настраивая связи между нейронами на модели нижней гортани певчих птиц (сиринкса), а затем тестируя ее, чтобы увидеть, действительно ли новая песня лучше предыдущей. Если это было так, то изменения сохранялись, но если новая песня была хуже, изменения в синапсе откатывались к первоначальному состоянию[272]. Мы предсказали, что в верхней части моторной цепи, которая генерирует последовательность слогов, должны быть нейроны, которые активны только на одном слоге песни, чтобы облегчить настройку каждого слога отдельно. Спустя некоторое время ученые из лаборатории Майкла Фи при МТИ и из других лабораторий, изучающих пение птиц, подтвердили эту и другие ключевые предсказания модели.
Рис. 10.7. Пение зебровых амадин. Пение отца (сверху) обучает петь сына (ученика), и диалект передается из поколения в поколение. Обратите внимание на сходство мотива (обведенная область) в спектрограмме (спектральная мощность как функция времени). Мотив становится короче с каждым поколением
Эллисон Доуп, изучавшая в Калифорнийском университете в Сиэтле пение птиц, и Патриция Куль, изучавшая в Вашингтонском университете в Сиэтле развитие речи у детей, провели много параллелей между тем, как птицы осваивают пение и как малыши осваивают речь[273]. И слоги у птиц и фонемы у младенцев изучаются сначала как звуки, и только позже происходит моторное обучение – «суб-песня» у птенцов и лепет у детей. Алгоритм обучения с подкреплением у певчих птиц отличается от обучения с учетом временной разницы, используемой в системе вознаграждения, и показывает, что в мозге много систем обучения и запоминания, которые зависят от предметной области и для приобретения новых навыков должны работать вместе.
Другие формы обучения
Несмотря на прогресс, достигнутый в автоматизации некоторых когнитивных функций, таких как зрительное и слуховое восприятие, есть много других аспектов человеческого интеллекта, нуждающихся в улучшении. Обучение представлениям в коре и обучение с подкреплением в базальных ганглиях существенно дополняют друг друга. Можно ли обучение игре в го на чемпионском уровне перенести на решение других сложных задач? Большая часть человеческого обучения основана на наблюдении и подражании, и людям нужно гораздо меньше примеров, чем при глубоком обучении, чтобы начать распознавать новый объект. Непомеченных сенсорных данных очень много, и мощные неконтролируемые алгоритмы обучения могут использовать их в своих интересах, прежде чем начать наблюдение. В главе 7 для запуска сетей глубокого обучения использовалась неконтролируемая версия алгоритма Больцмана, а в главе 6 – независимый компонентный анализ, неконтролируемый алгоритм обучения, извлекающий разреженную совокупность кодов из фотографий природы. Неконтролируемое обучение – это следующий рубеж в машинном обучении. Мы только начинаем понимать, как мозг обрабатывает данные.
В мозге много систем обучения и форм пластичности, которые усиливают друг друга. Даже в коре есть несколько десятков форм пластичности, включая пластичность в возбуждаемости и усилении нейронов. Особенно важная форма синаптической пластичности – гомеостатическая, которая поддерживает уровень активности нейронов в пределах их оптимального динамического диапазона. Что происходит, когда синаптическая сила уменьшается до нуля или достигает максимального предела? Это может привести к тому, что нейрон никогда не получит достаточно входных данных для достижения порога или, наоборот, у него будет слишком много входных данных и всегда на высоком уровне активности. Джина Турриджано открыла в головном мозге новую форму синаптической пластичности, которая нормализует все синапсы в нейроне для поддержания баланса его активности[274]. Если средняя скорость сигналов слишком высока, все возбуждающие синаптические силы уменьшаются; и наоборот, если скорость сигналов слишком низкая, силы увеличиваются. Для тормозящих входных сигналов они меняют направление на противоположное: синаптическая сила увеличивается, если активность слишком высокая, и уменьшается, если активность слишком низкая. Подобные формы нормализации оказались эффективными при моделировании развития нейронных карт[275]. Искусственные нейронные сети, которые управляются стохастическим градиентным спуском, могут извлечь выгоду из гомеостатического масштабирования.
В мембранах нейронов есть десятки потенциал-зависимых и лиганд-зависимых ионных каналов, которые регулируют возбудимость и передачу сигналов. Должны существовать механизмы, основанные на локальном характере активности в дендритах, сомах[276] и аксонах нейронов, которые динамически регулируют расположение и плотность каналов. Было предложено несколько алгоритмов того, как это реализовано[277]. Эта форма гомеостаза не так хорошо изучена, как гомеостатическая синаптическая пластичность.
Чего не хватает?
Мы с Демисом Хассабисом участвовали в симпозиуме «Мозги, умы и машины»[278] на конференции NIPS в Монреале в 2015 году, а также в семинаре «Единицы информации и мозг»[279] на конференции NIPS в 2016 году в Барселоне. Это были жаркие дебаты о будущем искусственного интеллекта и о том, в каком направлении нужно вести исследования. Остается множество открытых вопросов в области ИИ, которые нужно решить. Прежде всего, понимание причинно-следственных связей, от которых зависят высшие уровни человеческого мышления. При этом действия считаются совершенными намеренно, что предполагает наличие разума. Я упоминал ранее, что ни одна из систем глубокого обучения, которые мы создали, не способна выжить самостоятельно. Автономия станет возможна только в том случае, если будут включены функции многих других частей мозга, которые до сих пор игнорировались, такие как гипоталамус, который необходим для гомеостаза, и мозжечок, который помогает нам совершенствовать моторику на основе ошибки прогнозирования движения. Это древние структуры, найденные у всех позвоночных животных, и они важны для выживания.
Глава 11. Нейронные системы обработки