рассуждают о необходимости контролировать ядерные реакции. Некоторые еще употребляют термин «анти-ИИ», и, продолжая аналогию, инженеров-ядерщиков можно было бы называть «антифизиками». Цель понимания и предотвращения рисков разработки ИИ состоит в том, чтобы обеспечить реализацию всех выгод такой разработки. Бостром, например, пишет, что успехи в «подчинении» ИИ обеспечат «вступление на цивилизационную траекторию, которая ведет к лучшему исходу – на благо всего человечества»; при всем желании вряд ли возможно увидеть здесь пессимистический прогноз.
6. Любая машина, достаточно умная для причинения неприятностей, будет достаточно умной для постановки соответствующих альтруистические целей[36]. (Нередко этот довод предваряется утверждением, что по-настоящему умные люди, как правило, ставят перед собой более альтруистические цели; такая точка зрения может отражать самооценку тех, кто ее высказывает.) Этот довод связан с «гильотиной Юма» и натуралистической ошибкой Дж. Э. Мура[37]; предполагается, что каким-то образом машина, обретя разумность, сама поймет, что правильно, исходя из опыта познания мира. Это совершенно неправдоподобно; например, по дизайну шахматной доски и шахматных фигур невозможно понять цель шаха и мата, а та же шахматная доска и те же фигуры могут быть использованы для игры в поддавки и многих других игр, которые только предстоит изобрести. Иными словами, Бостром воображает людей, истребляемых роботом, который превращает планету в море скрепок; мы, люди, воспринимаем такой исход как трагический, тогда как потребляющая железо бактерия Thiobacillus ferrooxidans пребывает в восторге от перспективы. Кто посмеет заявить, что бактерия не права? Сам факт того, что цели машинам задаются людьми, вовсе не означает, что машины автоматически оценят значимость объектов, не относящихся к цели, для людей. Максимизация цели вполне может доставить проблемы людям, но, по определению, машина не распознает эти проблемы как таковые.
7. Разумность многомерна, а потому выражение «умнее людей» лишено смысла[38]. Одна из посылок современной психологии гласит, что показатель IQ не характеризует в полной мере все богатство когнитивных навыков, присущих людям в той или иной степени. Показатель IQ дает весьма приблизительную оценку человеческому интеллекту – и совершенно бесполезен для современных систем искусственного интеллекта, поскольку их возможности в разных областях не коррелируют между собой. Как сравнивать IQ поисковой системы Google, которая не умеет играть в шахматы, и тот же показатель суперкомпьютера DeepBlue, неспособного реагировать на поисковые запросы?
Ничто из сказанного не подтверждает, будто, поскольку интеллект многомерен, мы вправе игнорировать потенциальные риски создания сверхразумных машин. Если выражение «умнее людей» лишено смысла, то таково и выражение «умнее горилл», а потому гориллам нечего опасаться людей; ясно, что этот аргумент не выдерживает критики. Логически возможно, что одно существо может оказаться способнее другого в том или ином соответствующем измерении разума, и также возможно, что один вид живых существ будет представлять экзистенциальную угрозу для другого, даже если первый не обладает пониманием музыки и литературы.
Решения
Должны ли мы воспринимать предупреждения Винера как руководство к действию? Надо ли нам разрабатывать системы ИИ, чьи цели не будут противоречить нашим, чтобы мы были довольны их поведением? На первый взгляд эта затея кажется безнадежной, поскольку, безусловно, окажется невозможным правильно сформулировать наши собственные цели или вообразить все контринтуитивные способы, какими сверхразумная сущность может достигать этих целей.
Если рассматривать сверхразумные системы ИИ как своего рода «черные ящики» из космоса, тогда у нас действительно нет ни малейшей надежды. Но подход, который мы как будто вынуждены применять, если не хотим сомневаться в результатах, состоит в том, чтобы выявить некую формальную задачу F и проектировать системы ИИ для решения этой задачи, причем, независимо от точности решения, мы будем довольны итогом. Если получится составить задачу F с такими свойствами, мы сможем создать доказуемо благотворный ИИ.
Вот пример того, как не нужно это делать. Пусть наградой будет скалярная величина, периодически задаваемая человеком машине в соответствии с тем, насколько хорошо машина вела себя в течение конкретного промежутка времени; и пусть задача F будет задачей максимизации ожидаемой суммы вознаграждений, полученных машиной. Оптимальное решение задачи, вопреки очевидным ожиданиям, заключается не в хорошем поведении, а в том, чтобы контролировать человека-оператора и заставить его обеспечить поток максимальных наград. Перед нами образчик так называемой интерфейсной задачи, которая опирается на наблюдение, что сами люди подвержены тому же поведению, если располагают электронными стимуляторами собственных центров удовольствия.
Полагаю, что может оказаться эффективным следующий подход. Людей можно обоснованно описать как обладающих некими предпочтениями (обычно имплицитными) в отношении будущего – то есть при наличии достаточного времени и неограниченных визуальных средств человек способен выразить свое предпочтение (или безразличие), когда ему предлагается выбор между двумя вариантами будущего, изложенными во всех подробностях. (Эта идеализация игнорирует возможность того, что наш разум объединяет подсистемы с несовместимыми предпочтениями; если так и есть, это ограничивает способность машин оптимально удовлетворять наши предпочтения, но как будто не препятствует нам создавать машины, позволяющие избежать катастрофических результатов.) Формальная задача F решается машиной в данном случае для максимизации человеческих предпочтений применительно к будущему с учетом изначальной неуверенности в их содержании. Кроме того, пусть предпочтения относительно будущего суть скрытые переменные, они опираются на обильные фактические свидетельства, а именно на все человеческие решения, которые когда-либо были приняты. Эта формулировка позволяет обойти проблему, обозначенную Винером: конечно, машина способна узнавать о человеческих предпочтениях все больше и больше, но она никогда не добьется здесь полной определенности.
Более точное определение возможно дать в рамках совместного обучения с обратным подкреплением (CIRL)[39]. Тут задействуются два агента, один из которых – человек, а другой – робот. При двух агентах возникает ситуация, которую экономисты характеризуют как игру. Это игра в частичную информацию, поскольку человеку известна функция вознаграждения, но робот о ней не знает, хотя задача робота состоит в ее максимизации.
Вот простой пример: предположим, что некая женщина по имени Гарриет коллекционирует скрепки и канцелярские булавки, и для нее функция вознаграждения определяется знанием о том, сколько образцов каждого вида имеется в коллекции. Точнее, если у нее есть p скрепок и s булавок, то коэффициент счастья равен θp + (1 – θ) s, где θ есть фактически обменный курс между скрепками и булавками. Если θ равно 1, ей нравятся только скрепки; если θ равно 0, ей нравятся только булавки; если θ равно 0,5, то у нее нет предпочтений, и т. д. Робот Робби занимается производством скрепок и булавок. Смысл игры в том, что Робби хочет сделать Гарриет счастливой, но не знает значения θ, поэтому не уверен, какое количество каждых нужно произвести.
Вот как развивается игра.