определенные паттерны. Например, отрезок прямой линии или дугу. Третий слой выискивает паттерны в паттернах. Он уже может свести концы с концами и увидеть ухо или зуб. В конечном счете такая многослойная сеть может научиться идентифицировать собаку. По крайней мере, такая была идея. Никто в реальности не пытался ее осуществить и проверить. И вот в Сан-Диего решили попробовать.
Одним из ведущих деятелей в «группе PDP» был профессор из Сан-Диего Дэвид Румельхарт, имевший ученые степени в области психологии и математики. Когда его спрашивают о Румельхарте, Хинтон любит вспоминать случай, когда им пришлось сидеть на лекции, которая ни для кого из них не представляла никакого интереса. Когда лекция закончилась и Хинтон пожаловался, что зря потерял час жизни, Румельхарт возразил, что он так не считает. По его словам, если бы он просто проигнорировал эту лекцию, то эти шестьдесят минут ломал бы голову над своими собственными исследованиями. По мнению Хинтона, такое умение находить позитивную сторону во всем было характерно для Румельхарта.
Румельхарт поставил перед собой весьма конкретную, но при этом стержневую задачу. Одной из главных сложностей при построении многослойной нейронной сети было то, что очень трудно определить относительную значимость («весовой коэффициент») каждого нейрона в общей расчетной формуле. В однослойной сети типа «Перцептрона» эта задача была осуществима: система могла автоматически задавать вес нейронов в сети. Но в многослойной сети такой метод попросту не работал. Взаимосвязи между нейронами были слишком обширными и сложными. Если изменить весовой коэффициент одного нейрона, это неизбежно отразится на тех нейронах, которые зависят от его поведения. Здесь был необходим более эффективный математический метод, где вес каждого нейрона задавался бы в согласовании со всеми прочими нейронами. В качестве ответа на эту проблему Румельхарт предложил метод, получивший название «обратное распространение ошибки». Этот алгоритм состоял их нескольких итераций расчетов, где, двигаясь по иерархии нейронов в обратном направлении и анализируя за счет своего рода математической обратной связи все большее количество информации, можно достигнуть лучшего понимания того, каким должен быть оптимальный вес каждого нейрона.
Когда новоиспеченный доктор Хинтон прибыл в Сан-Диего и узнал от Румельхарта о его планах, он сразу сказал, что этот математический фокус не сработает. Ведь это доказал сам Фрэнк Розенблатт, человек, создавший «Перцептрон». Если построить нейронную сеть и установить все веса на ноль, система будет учиться сама регулировать себя, постепенно внося коррективы слой за слоем. Но в конечном счете каждый весовой коэффициент проявит себе в том же самом месте, что и все остальные. Однако сколько бы вы ни пытались заставить систему использовать относительные весовые коэффициенты, она будет стремиться к уравнительству – в силу самой своей природы. Как показал Фрэнк Розенблатт, это заложено в самом математическом алгоритме. Говоря математическим языком, система не может «нарушить симметрию». Один нейрон не может быть важнее других – вот в чем проблема. И это означает, что никакая нейронная сеть не может быть существенно лучше «Перцептрона».
Румельхарт выслушал возражение Хинтона – и внес новое предложение. «А что, если не устанавливать весовые коэффициенты на ноль? – сказал он. – Что, если взять случайные числа?» Если все веса изначально разные, тогда и математический процесс пойдет по-другому. Да и не нужно все веса рассчитывать. Рассчитываться будут только те весовые коэффициенты, которые позволяют системе распознавать сложные паттерны, например фотографию собаки.
Хинтон любит говорить, что «старые идеи – это новые идеи»: ученые не должны отказываться от своих идей, пока не будет доказано, что они не работают. Розенблатт еще двадцатью годами ранее доказал, что метод обратного распространения ошибки не работает, и поэтому Хинтон от него отказался. Но тут Румельхарт внес это, казалось бы, небольшое исправление, и двое ученых на нескольких недель занялись созданием системы, которая изначально имела случайные веса нейронов и потому могла нарушать симметрию. Она могла придавать каждому нейрону разные весовые коэффициенты. И при этом система действительно могла распознавать паттерны в изображениях. Это были, конечно, совсем простые изображения. Идентифицировать собаку, кошку или автомобиль система не могла, но благодаря методу обратного распространения ошибки теперь она уже могла справиться с проблемой «исключающего или», то есть преодолеть тот самый недостаток искусственных нейронных сетей, на который более чем за десять лет до этого указал Марвин Мински. Она теперь могла, изучив два пятна на листе картона, ответить на сакраментальный вопрос: «Эти два пятна разного цвета?» На что-то существенно большее система не была способна, и эта идея вновь отошла в тень, однако обойти проблему, связанную с доказательством Розенблатта, ученым все-таки удалось.
В последующие годы Хинтон начал активно сотрудничать с Терри Сейновски, в то время постдоком на кафедре биологии в Принстоне. Они познакомились через другую (не имевшую названия) группу коннекционистов, которые собирались раз в год в разных местах страны для обсуждения тех же самых идей, которые занимали умы их коллег в Сан-Диего. Метод обратного распространения ошибки был одной из тем для обсуждения – как и машина Больцмана. Годы спустя, когда Хинтона попросили объяснить суть машины Больцмана так, чтобы это было понятно простому человеку, далекому от математики и естественных наук, он отказался. Это все равно, сказал он, что просить Ричарда Фейнмана, лауреата Нобелевской премии по физике, объяснить суть открытий, сделанных им в области квантовой электродинамики. Кстати, когда Фейнмана попросили79 объяснить, за что его наградили Нобелевской премией, так, чтобы это было понятно непосвященному человеку, он тоже отказался. «Если бы это можно было объяснить простому человеку, – сказал он, – за это не дали бы Нобелевскую премию». Сущность машины Больцмана действительно трудно объяснить – отчасти потому, что речь идет о математической системе, которая основана на теории, впервые разработанной столетие назад австрийским физиком Людвигом Больцманом для исследования феномена, не имеющего ничего общего с искусственным интеллектом (равновесие частиц в нагретом газе). Но цель была простая: это был способ создания искусственной нейронной сети усовершенствованного типа.
Как и «Перцептрон», «машина Больцмана» обучалась на анализе большого количества данных, включая звуки и образы. Но она имела важное отличие. Она обучалась также путем создания собственных звуков и образов и последующего сравнения созданных звуков и образов с анализируемыми. Это в чем-то похоже на человеческое мышление в том смысле, что человек способен представлять в воображении образы, звуки и слова. Человек что-то себе надумывает – как ночью, так и в течение дня, – а потом использует эти мысли и зрительные образы в реальной жизни. Хинтон и Сейновски надеялись, что с помощью «машины Больцмана» им удастся наделить этой человеческой способностью электронный компьютер.