как говорил Шеннон по поводу шахмат.
Нейросеть – это вычислительная система, созданная по образцу человеческого мозга в надежде воспроизвести, хотя бы отчасти, его поразительные возможности. Мозг состоит из миллиардов взаимосвязанных нейронов, нейросеть – из множества взаимосвязанных математических функций. Эти искусственные математические нейроны связаны друг с другом в граф с рядом слоев – от входного слоя до определенных скрытых слоев и выходного слоя, имеющих разные численные веса, подобно синаптическим связям в настоящем мозге. Искусственные нейроны передают числа между функциями аналогично тому, как реальные нейроны передают химические сигналы через синапсы. В соответствии со сложными алгоритмами многочисленные соединения нейронной сети укрепляются или ослабевают по мере того, как она обучается на все большем количестве данных, совершенствуя путь от входа до выхода. Точно так же, как ребенок в итоге понимает, что нужно сказать «собака», когда он видит собаку, нейронная сеть в итоге может научиться выдавать слово «собака», когда ей предоставляют цифровой образ собаки.
Классическим примером того, что хорошо умеет делать нейросеть, является распознавание цифр, написанных вручную. Эта задача актуальна, например, для почтовых отделений, где нужно быстро и точно маршрутизировать письма с использованием почтовых индексов. Каждая из рукописных цифр – 2 с плавными обводами, 4 с косой линией, 7 с перечеркиванием – поступает в компьютер в виде цифрового изображения. Поступившие во входной слой данные изображений просеиваются через многочисленные соединения и вычисления в скрытых слоях и в итоге попадают в выходной слой из 10 нейронов, каждый из которых соответствует определенной цифре. Чтобы считать рукописную 5 и выдать 5, машина должна научиться распознавать паттерны. Вначале программа почти ничего не может и предсказывает цифры не лучше, чем если бы делала это наугад. Однако она обучается и совершенствуется посредством так называемого алгоритма обратного распространения ошибки. Всякий раз, когда срабатывают сетевые синапсы, проводя числа через различные слои, и компьютер выдает неверную цифру, он несет определенные издержки. Мы велим программе гордиться своей работой и делать все возможное, чтобы минимизировать издержки. Это тоже своего рода игра. Сеть начинает реорганизовывать синаптические соединения соответствующим образом. Скрытые слои могут приобретать определенное назначение, независящее от программиста. Возможно, один слой начинает распознавать рукописные кривые, тогда как другой – косые линии. Так как эти связи изменяются, вычисления, выполняемые данной нейронной сетью, когда она видит следующую цифру, тоже меняются. Со временем точность прогнозирования возрастает. Попрактиковавшись в достаточной мере, нейронная сеть распознает цифры с поразительной точностью.
Она может делать практически то же самое, если ее задачей будет игра в шашки и кости. Такая нейронная сеть, как TD-Gammon, берет позицию в нардах, выполняет расчеты в скрытых слоях и включает «нейрон» на выходе, представляющий собой, как можно надеяться, оптимальный ход. Такие системы могут работать с биометрией, иностранными языками и городским ландшафтом: в наши дни нейросети являются «мозгом», стоящим за распознаванием лиц, машинным переводом, фильтрацией спама в электронной почте, беспилотными автомобилями и значительной частью того, что мы называем искусственным интеллектом. В подходе Тезауро к нардам явно имелся потенциал для универсального использования, который отсутствовал в более ранних исследованиях, посвященных шашкам и шахматам.
Тезауро стал публиковать результаты работы своей нейросети для нардов в научных журналах. В 1994 году он сообщал, что TD-Gammon стала играть на уровне мастера и что вместо создания бота, играющего все лучше, стоит пойти дальше. «Другие области применения могут включать стратегии торговли на финансовых рынках, стратегии боевых действий, а также такие управленческие задачи, как управление движением роботов, навигация и разработка траекторий движения», – писал он в журнале Neural Computation. Однако при этом добавлял: «На данный момент нам все еще во многом непонятно, почему TD-Gammon так хорошо умеет самообучаться». Как и человеческому мозгу, системам машинного обучения присуща проблема «черного ящика»: они могут работать хорошо, но мы точно не знаем, каким образом. В последующие годы исследования Тезауро распространились на алгоритмы ценообразования, обнаружение компьютерных вирусов, аукционные торги и энергопотребление в центрах обработки данных.
В соответствии с корпоративной политикой IBM Тезауро не опубликовал свою программу нардов и ее исходный код. Он, однако, был готов раздавать записи партий, которые она сыграла. Кит Вулси, игрок мирового уровня как в нардах, так и бридже, нанес ему визит. Тезауро дал ему «большую пачку» записей партий, которые TD-Gammon сыграла сама с собой. «Он изучил все ходы до единого и, просто глядя на то, что делала программа, смог освоить новый подход к игре в нарды, который был лучше, чем все, что люди делали раньше», – сказал Тезауро.
После того как TD-Gammon доказала мастерство в своей «родной» игре, заложенные в ней идеи начали применяться и в других, порой неожиданных областях. В Массачусетском университете тот же подход стали использовать для управления движением лифтов. Способность снимать фишки с доски привела к эффективному моделированию вертикальных пассажиропотоков в высоком здании. В NASA это использовали при так называемом оптимально минимизированном производственном планировании для космического шаттла. Минимизированное производственное планирование – классическая проблема оптимизации в информатике, когда имеется определенное количество заданий, которые нужно выполнить на некотором количестве машин. Как спланировать их выполнение, чтобы минимизировать время реализации всего проекта? Спустя годы TD-Gammon нашла применение в процессе разработки агрессивной стратегии ставок Daily Double для компьютерной системы Watson в телевикторине Jeopardy! Аналогичная стратегия использовалась с отличными результатами профессиональным игроком Джеймсом Хольцхауэром во время его рекордного участия в серии выпусков этой телевикторины в 2019 году[36].
В мире игрового ИИ исследования Тезауро привели к появлению историй беспрецедентного успеха, однако во время нашего интервью он порой казался настороженным. Я чувствовал, его беспокоит, что профан вроде меня может счесть созданное им не интеллектуальным. Он подчеркивал, например, будто «знающие люди, технические специалисты» говорили, что программа TD-Gammon является интеллектуальной, а вот Deep Blue, шахматный суперкомпьютер, – нет. (Кабинет одного из создателей Deep Blue находился чуть дальше по коридору. Тезауро робко спросил сотрудницу IBM по связям, которая сидела в помещении, согласна ли она с ним. Она ответила, что не может сказать, так как «не разбирается в технике».) С точки зрения Тезауро, разница была связана с элегантностью. «Элегантность важна», – несколько раз повторил он. Deep Blue была всего лишь большим калькулятором с кучей написанных вручную узкоспециализированных частей, несущим постыдное клеймо заранее запрограммированных, сублимированных людских знаний. TD-Gammon все делала самостоятельно. Она самообучалась. Разве это не элегантно? Разве это не интеллект?