которое не может быть определено), как только дискуссия касается мира фактов. Хотя в примере с языком ситуация, возможно, более ясная, нет оснований полагать, что другие аспекты человеческого поведения попадут в сферу «науки», сдерживаемой заведомыми ограничениями Скиннера».
Рис. 17.3. Обложка журнала с разгромным эссе Хомского о Скиннере. Это эссе, опубликованное в 1971 году, было настолько хорошо написано, что заставило целое поколение ученых отказаться от поведенческого обучения как способа объяснить познание. Альтернатива, поддерживаемая лингвистикой, была основана на обработке символов, и именно ее приняли пионеры ИИ. Однако символьный подход к ИИ никогда не достиг производительности когнитивного подхода. Скиннер был на правильном пути, и сегодня самые мощные приложения ИИ основаны на обучении с подкреплением, которое высмеивал Хомский
Сегодня очевидно, что Хомский понимал суть вопроса, но не осознавал силу обучения. Глубокое обучение показало нам, что нейронные сети способны к «обобщению» того рода, который Хомский назвал «мистицизмом», и что их можно научить избирательно распознавать речь на разных языках, переводить с языка на язык и даже создавать довольно точные подписи к изображениям. Иронично, но машинное обучение решило проблему автоматического разбора предложений, чего так и не удалось «абстрактным теориям» синтаксиса Хомского, несмотря на все усилия компьютерных лингвистов[448]. В сочетании с обучением с подкреплением, которое изучал на животных Скиннер, могут быть решены сложные проблемы, которые зависят от выбора последовательности решений для достижения цели. В этом суть решения проблем и, в конечном счете, основа интеллекта.
Презрительное эссе Хомского вышло далеко за рамки критики Скиннера и бросило вызов обучению как способу понять познание. Это мнение оказало решающее влияние на когнитивную психологию 1970-х годов. Суть его доводов из приведенной выше цитаты сводилась к тому, что он не мог вообразить, что ассоциативное обучение сумеет когда-либо привести к когнитивному поведению, сравнимому по сложности с речью. На мой взгляд, его аргумент был основан на нехватке информации. Если ведущий мировой лингвист говорит, что он не может что-то представить, то это не становится невозможным. Но риторика Хомского, нашедшая отклик в духе того времени, была убедительной. К 1980-м годам подход к познанию с помощью обработки символов стал единственно приемлемым и лег в основу новой области, называемой когнитивной наукой, включившую в себя когнитивную психологию, лингвистику, философию и информатику. Нейробиология была частью когнитивной науки и оставалась в тени до бурного развития когнитивной нейробиологии в 1990-х годах.
Бедность воображения
Хомский неоднократно использовал одни и те же риторические аргументы, особенно в доводах о врожденности языка, основанной на «бедности стимула»[449]. Этот аргумент гласит, что ребенок не слышит достаточно примеров предложений, чтобы научиться правилам синтаксиса. Но ребенок не компьютер, получающий от мира строку бестелесных символов. Он погружен в мир богатых сенсорных ощущений и познает его с захватывающей дух скоростью[450]. Ребенок получает от мира значимые переживания, связанные со звуками, еще находясь в утробе матери в форме неконтролируемого обучения, и только после того, как заложен этот фундамент, начинается языковой этап: сначала лепет, затем отдельные слова и – гораздо позже – синтаксически правильные последовательности слов. Врожденной является не грамматика, а способность изучать язык на основе опыта и усваивать свойства целых категорий фраз более высокого порядка в богатом когнитивном контексте.
Что Хомский не мог себе представить, так это то, что в сочетании с глубоким изучением окружающей среды и крепко усвоенной способности определять функцию ценности, отточенной на протяжении всей жизни, слабая система обучения, такая как обучение с подкреплением, может привести к когнитивному поведению, включая развитие речи. В 1980-х годах для меня это было совсем не очевидно, но я должен был понять, что если крошечная сеть, такая как NETtalk, может обрабатывать английское произношение, вполне вероятно, что представления слов, выученных сетями, получат естественное сходство с языком. Позиция Хомского основывалась на бедности воображения, но логически вытекала из второго закона Орджела: природа умнее Ноама Хомского. Будьте осторожны, когда эксперт говорит вам, что что-то невозможно, независимо от того, насколько правдоподобны или убедительны его доводы.
Упор на порядок слов и синтаксис, сделанный Хомским, стал доминирующим подходом в лингвистике во второй половине XX века. Но даже модель «мешок слов»[451], которая отбрасывает порядок слов в предложении, замечательно подходит для понимания темы текста (например, спорт или политика), которое можно дополнительно улучшить, если учитывать слова, стоящие рядом друг с другом. Вывод из глубокого изучения в том, что порядок слов несет некоторую информацию, но семантика, основанная на значении слов и их отношениях с другими словами, важнее. Слова представлены в мозге богатой внутренней структурой. Узнавая больше, как слова семантически представлены в сетях глубокого обучения, мы, возможно, наблюдаем появление новой лингвистики. Если нет причин, по которым природа должна обременять нас знаниями о том, как мы видим, то нет и причин интуитивно понимать, как работает наша речь.
Давайте взглянем, как внутренняя структура слов может выглядеть в сети, обученной на задачах естественного языка. Хотя сеть может быть обучена на одной задаче, способ, которым она представляет входы в сеть, может использоваться для решения других. Хороший пример – сеть, обученная предсказывать следующее слово в предложении. Представление слов в обученной сети имеет внутреннюю структуру, которую можно использовать, чтобы проводить аналогии между парами слов[452]. Например, при проецировании на плоскость векторы, соединяющие страны со столицами, одинаковы. Сеть научилась автоматически организовывать понятия и неявно изучать отношения между ними, не имея никакой сторонней информации о том, что означает столица (рис. 17.4). Это показывает, что семантику стран и столиц можно извлечь из текста, используя неконтролируемое обучение.
Рис. 17.4. Внутреннее представление слов в сети, обученной предсказывать следующее слово в предложении. Каждое слово – вектор активности в сети, который можно спроецировать вниз на двумерную плоскость, как показано выше. Стрелки соединяют страны со столицами. Поскольку все стрелки соответствуют друг другу и примерно одинаковой длины, пары слов тоже соответствуют. Например, если вы хотите узнать столицу другой страны, вы можете добавить стрелку в вектор страны и получить вектор ее столицы
Однажды я начал лекцию в МТИ с заявления, что «язык слишком важен, чтобы оставить его лингвистам»[453]. Мы не должны останавливаться на описании языка на поведенческом уровне, но должны стремиться понять биологию языка, лежащие в его основе биологические механизмы и то, как развивались языковые способности Homo sapiens. Это стало возможным благодаря неинвазивной визуализации мозга и записей, сделанных непосредственно из мозга