Работая в Bell Labs, он вместе с коллегами смог материализовать метод backpropagation на сверточной нейронной сети LeNet (Convolutional Neural Network, CNN) в приложении для распознавания рукописного текста на банковских чеках и на почтовых отправлениях. Ошибки при распознавании не превысили 1 %.
Канадская мафия
Ближе к середине прошлого десятилетия была накоплена критическая масса знаний в части глубокого обучения ANN. В таких случаях всегда, образно говоря, кто-то отрывается от пелотона и зарабатывает майку лидера, так было и, видимо, будет в науке всегда. В данном случае в роли лидера оказался Джеффри Хинтон, британский ученый, продолживший свою карьеру в Канаде. С 2006 года он сам и вместе с коллегами начал публиковать многочисленные статьи, посвященные ANN, в том числе и в научно-популярном журнале Nature, чем заслужил себе прижизненную славу классика. Вокруг него образовалось сильное и сплоченное сообщество, которое несколько лет работало, как теперь говорят, «в невидимом режиме». Его члены сами называют себя «заговорщиками глубокого обучения» (Deep Learning Conspiracy) или даже «канадской мафией» (Canadian mafia). Образовалось ведущее трио: Ян Лекун, Иешуа Бенджо и Джеффри Хинтон, их еще называют LBH (LeCun & Bengio & Hinton). Выход LBH из подполья был хорошо подготовлен и поддержан компаниями Google, Facebook и Microsoft. С LBH активно сотрудничал Эндрю Ын, работавший в МТИ и в Беркли, а теперь возглавляющий исследования в области искусственного интеллекта в лаборатории Baidu. Он связал глубинное обучение с графическими процессорами.
Сегодня машинное обучение ассоциируется с глубоким машинным обучением, то есть с одним из методов реализации машинного обучения, где средствами искусственных нейронных сетей имитируются структуры и функции мозга, поэтому его иногда еще называют структурным или иерархическим обучением. Термин Deep Learning раньше других использовали Рина Дехтер (1986) и Игорь Айзенберг (2000). Между тем японские специалисты утверждают, что именно они выдвинули идею, которую можно считать основой глубинного обучения, при этом называются имена Фукусимы Кунихико и Амари Сюнъити, также занимавшегося исследованием нейросетей.
Были и другие предшественники глубокого обучения, но оно «заработало» и смогло занять свое нынешнее место только после того, как было дополнено еще методом backpropagation. Этот метод применим для сверточных нейронных сетей CNN (Convolutional Neural Network), которые можно рассматривать как подобие зрительной коры, работа которой связана с активацией определённого набора простых клеток. Такие сети являются многослойными и однонаправленными (feedforward neural network).
Как любую новацию, глубокое машинное обучение, ставшее основой нынешнего AI-бума, не обошли раздоры, связанные с приоритетом. Так уж сложилось, что авторами всего того технологического богатства, которым располагает человечество, были тысячи и тысячи людей, но только избранных называют первыми. Любой приоритет условен, изобретения появляются в благоприятное для них время, когда возникают необходимые условия и предпосылки. Вот и сейчас вся публичная слава создателей глубокого обучения, а заодно и «отцов современного AI», досталась трио Хинтон-Лекун-Бенджо, но в тени остался швейцарец Юрген Шмидхубер, работающий в альтернативном направлении, которое называется долгая краткосрочная память LSTM (Long Memory).
В марте 2019 Тьюринговская награда 2018 года, аналог Нобелевской премии в компьютинге, была присуждена Джеффри Хинтону, Янну Лекуну и Джошуа Бенджо. В отличие от подавляющего большинства других тьюринговских и тем более нобелевских лауреатов, остающихся после получения наград в своих лабораториях, эти трое и их ближайшие сотрудники вышли в мир бизнеса, продолжая свои исследования в сотрудничестве с крупнейшими компаниями Google, Facebook, другими крупными вендорами, многие создали свои собственные предприятия.
Нельзя исключать, что восхождение ко всемирной славе, по своей стремительности сравнимое с превращением Золушки, стало неожиданностью для них самих, ничто из того, чем они занимались 20 лет назад, не могло этого предвещать. В роли феи оказалась совсем небольшая по численности канадская благотворительная организация CIFAR (Canadian Institute for Advanced Research), выступающая в роли распорядителя средств, выделяемых правительством Канады и провинции Квебек с 1982 года. Свою миссию CIFAR видит в периодической концентрации средств и внимания на какой-то актуальной программе, привлекая для этой цели временные немногочисленные коллективы специалистов из разных стран. Время жизни каждой из программ составляет 10–15 лет, их было порядка полутора десятков, но самой известной из них, принесшей известность CIFAR, стала Neural Computation & Adaptive Perception program, открытая в 2004. К ней были привлечены нынешние тьюринговские лауреаты, а также специалисты по смежным специальностям: в том числе биологи, психологи, физики. Не будь этого импульса, на подиуме могли бы оказаться иные люди.
Спонсирование со стороны CIFAR позволило Хинтону, создававшему «временный трудовой коллектив», привлечь Лекуна и Бенджо с которыми он был связан общими научными интересами с конца 80-х. Сейчас трудно представить, что тогда исследования в области нейронных сетей представляли интерес только для чрезвычайно узкого круга, как их тогда называли, заговорщиков (cabal-like group), а их проекты вероотступническими (renegade). В те скудные времена (lean times) никто не верил будущее нейронных сетей.
Лекун вспоминает: «Период между серединой 90-х и серединой 00-х был мрачным, невозможно было опубликовать ни одной статьи по нейронным сетям, все потеряли интерес к ним. Сети имели плохую репутацию, и на них практически распространялось своего рода табу». Ситуация стала меняться по результатам очередного конкурса по распознаванию изображений ILSVRC (ImageNet ImageNet Large Scale Visual Recognition Challenge), прошедшего в 2012. Основателем этого соревнования стала профессор Стэнфордского университета Фей-Фей Ли, которой в голову пришла оригинальная идея переноса центра тяжести исследований в области AI с моделей и алгоритмов на распознавание изображений сетевыми средствами. Для того чтобы их обучать, потребовалась большая база изображений, названная ImageNet, в качестве прототипа для нее Ли использовала разработанную в Принстонском университете лексическую базу данных английского языка WordNet, представляющую собой тезаурус и набор семантических сетей для английского языка. Вторым идейным источником для ILSVRC стал конкурс PASCAL VOC challenge, учрежденный в 2005, из названия которого следует, что он был нацелен на деление изображений на классы VOC (visual object classes).
С каждым очередным конкурсом ILSVRC точность распознавания возрастала и переломный момент произошел в 2012 году, когда конволюционная нейронная сеть CNN, названная AlexNet, показала результат, равный 16 %. В последующие годы он регулярно повышался, и вскоре сеть могла распознавать изображения лучше человека. Но при этом надо учитывать условность этого сравнения, сеть способна распознавать только определенные, заданные ей типы объектов, в то время восприятие человека этим не ограничено и он способен выносить суждения о распознанных объектах. В создании AlexNet ведущую роль сыграли двое – Алекс Крыжевский, его имя вошло в название сети, и его коллега Илья Сутскевер, оба на тот момент они были аспирантами Джеффри Хинтона в Торонтском университете. Любопытно то, что