еще не бывало, чтобы я набирал код на клавиатуре, а кто-то другой встревал и начинал что-то набирать на той же самой клавиатуре». Они построили свой прототип, используя язык программирования Matlab, и код программы, написанный в основном Хинтоном, занимал не более десяти страниц. Как бы Хинтон ни принижал свои способности в области математики и информатики, Дэна поразила элегантная простота созданного им кода. «Все так ясно и понятно, – думал Дэн. – Строчка за строчкой». Но впечатление производила не только ясность кода. После того как система прошла обучение с использованием речевой базы данных Microsoft, они увидели, что это действительно
работает – пусть не так хорошо, как ведущие системы того времени, но достаточно хорошо, чтобы Дэн утвердился в убеждении, что именно здесь скрывается ближайшее будущее распознавания речи. Коммерческие системы распознавания речи использовали другие, практически кустарные методы, и будущего у них не было. Дэн понял, что они с Хинтоном создали систему, которая имела все перспективы стать еще более мощной и эффективной, поскольку обучалась на гораздо бо́льших объемах данных.
Для максимально эффективной работы их прототипу все еще не хватало вычислительной мощности, необходимой для анализа всех этих данных. В Торонто Хинтон использовал совершенно особый графический процессор. Производители мощных графических процессоров, или видеокарт, такие как Nvidia, изначально разрабатывали их как средство ускорения рендеринга графики для таких популярных видеоигр, как Halo и Grand Theft Auto, но в какой-то момент разработчики, занимающиеся глубоким обучением, обнаружили, что эти графические процессоры столь же хорошо справляются с математическими расчетами для нейронных сетей. В 2005 году трое инженеров107 работали над этой идеей в той же самой лаборатории Microsoft, где Дэн и Хинтон несколькими годами позже создали свой прототип системы распознавания речи, и примерно в то же самое время на тот же технический нюанс наткнулась и команда из Стэнфордского университета108. Эти видеокарты позволяли нейронным сетям обучаться на большем объеме данных за меньшее время – это было как раз то, чего добивался Ян Лекун в Bell Labs в начале 90-х. Разница заключалась в том, что графические процессоры были уже готовыми и общедоступными устройствами. Исследователям не нужно было создавать с нуля новые устройства, чтобы ускорить прогресс глубокого обучения. Благодаря таким играм, как Grand Theft Auto, и таким игровым консолям, как Xbox, они преспокойно могли использовать уже существующие видеокарты. В Торонто Хинтон и двое его студентов, Абдельрахман Мохамед и Джордж Даль, сын преподавателя английского языка, обучали свою систему распознавания речи с помощью этих специализированных видеокарт, и именно это позволило им выйти на новый уровень эффективности.
Когда недолгое пребывание Хинтона в Microsoft завершилось, Дэн настоял, чтобы Мохамед и Даль сменили его в Корпусе 99, причем порознь, в разное время, чтобы реализация проекта неослабно продолжалась еще нескольких месяцев. Согласившись на этот масштабный эксперимент, Хинтон и его ученики объяснили, что для полного успеха проекта необходима вычислительная техника совершенно другого уровня, в том числе мощный графический процессор стоимостью 10 000 долларов. Поначалу Дэна эта цена смутила. Его босс, Алекс Асеро, который впоследствии будет курировать разработку Siri, голосового помощника для Apple iPhone, сразу сказал ему, что это лишние расходы, – дескать, такие графические процессоры нужны для игр, а не для разработки искусственного интеллекта. «Не трать зря деньги», – сказал он Дэну, посоветовав вместо дорогущего графического процессора от Nvidia купить обычную видеокарту в ближайшем магазине электроники. Но Хинтон продолжать уговаривать Дэна, объясняя, что дешевое оборудование загубит эксперимент. Ведь идея эксперимента заключалась в том, чтобы нейронная сеть анализировала речевые данные из базы Microsoft на протяжении нескольких дней, и обычные видеокарты могут загореться от перегрева, если будут работать так долго. Но еще важнее то, что дополнительная вычислительная мощность, обеспечиваемая дорогим графическим процессором, позволит нейронным сетям по-настоящему проявить свои возможности. Дэн должен купить эту видеокарту за 10 000 долларов, и даже, возможно, не одну, а также специальную рабочую станцию, которая сможет эту видеокарту «потянуть». Ее стоимость примерно соответствовала стоимости видеокарты. «Это обойдется вам примерно в 10 000 долларов, – сообщил Хинтон в письме Дэну. – Мы собираемся заказать три штуки, но ведь мы работаем в щедро финансируемом канадском университете, а не в бедной компании, торгующей программным обеспечением». В конце концов Дэн сдался и купил необходимое оборудование.
В том же году научно-исследовательскую лабораторию Microsoft в Редмонде возглавил новый руководитель – Питер Ли. Опытный ученый со склонностью к административной работе, Ли более двух десятков лет проработал в Университете Карнеги – Меллона, где поднялся до должности заведующего кафедрой информатики. Когда он перешел в Microsoft и начал изучать бюджет лаборатории, то наткнулся на платежную ведомость, в котором перечислялись расходы на проект распознавания речи, который вел Дэн, включая деньги, заплаченные Хинтону, Мохамеду и Далю, средства, выделенные на организацию семинара в Уистлере, и расходы на графические процессоры. Ли был ошеломлен. Он решил, что вся эта затея была самой несусветной глупостью, с какой он когда-либо сталкивался. Он знал Хинтона по Университету Карнеги – Меллона в 1980-е годы, и уже тогда нейронные сети у него ничего, кроме смеха, не вызывали. Теперь же он считал это безумием. Но ко времени его прибытия в Редмонд проект был уже на полном ходу. «Иногда я думаю, что, если бы меня пригласили в Microsoft годом раньше, – говорит Ли, – ничего этого не случилось бы».
Прорыва удалось достигнуть тем же летом, когда в лабораторию прибыл Джордж Даль. Высокий, с крупными чертами лица и в маленьких очках, Даль решил посвятить свою жизнь разработке методов машинного обучения еще на втором курсе колледжа, увидев в этом альтернативу программированию компьютеров – то, что позволяет вам решать проблему, даже если вы не совсем знаете, как к ней подступиться. Можно просто дать машине учиться самой. Он был плотно погружен в изучение нейронных сетей, но проблемой распознавания практически не занимался. «Над распознаванием речи я начал работать по той единственной причине, что все остальные члены группы Джеффа занимались компьютерным зрением», – часто говорил он. Он хотел показать, что идеи, зарождающиеся в лаборатории Хинтона, могут применяться не только сотрудниками отдела по распознаванию образов. И ему это удалось. «Джордж мало что знал о распознавании речи, – говорит Ли Дэн, – но он знал толк в графических процессорах». Используя графический процессор стоимостью 10 000 долларов для обучения нейронной сети на основе речевой базы данных, собранной Microsoft’овским голосовым поисковиком Bing, Даль добился того, что эффективность прототипа Хинтона превзошла результативность всех других альтернативных методов распознавания речи, разрабатывавшихся в стенах компании. Даль,