бы наказать Билла, чья работа состоит в проверке ассортимента. Вопрос в том, нужно ли вознаграждать Чарльза? С точки зрения Алисы, он своими действиями подвел фирму. Но с точки зрения Билла, Чарльз выполнил обязанности продавца и не его вина, что не удалось достичь цели, поставленной руководителем. Рассмотрим этот пример с двух точек зрения – назовем их «локальной наградой» и «глобальной наградой».
Локальная схема вознаграждает каждого агента, который помогает достичь цели руководителя. Потому Билл вознаграждает Чарльза, хотя действия Чарльза не помогли достижению целей более высокого уровня.
Глобальная схема вознаграждает только тех агентов, которые помогают добиваться целей высшего уровня. Следовательно, Чарльз остается без награды.
Придумывать механизмы для реализации локальных тактик обучения просто, ибо награда в каждом случае зависит только от отношений между агентом и его руководителем. Реализовать глобальную схему обучения труднее, поскольку требуется, чтобы механизмы выясняли, какие агенты действуют во имя первоначальной цели посредством цепочек достижения промежуточных целей. Локальная схема сравнительно великодушна к Чарльзу и вознаграждает его всякий раз, когда он выполняет то, о чем его просят. Глобальная схема оказывается «скареднее», она не поощряет Чарльза, даже пускай тот делает то, о чем просит руководитель, если его действия не вносят вклад в достижение цели высшего уровня. В такой схеме агенты зачастую не получают опыта. Соответственно глобальная тактика подразумевает более медленное обучение.
Обе схемы имеют свои преимущества. Осторожность глобальной тактики уместна, когда цена ошибки чрезвычайно высока или когда система располагает запасом времени. Она способна обеспечить более «ответственное» поведение, поскольку побуждает Чарльза научиться своевременно и самостоятельно проверять ассортимент, а не просто подчиняться указаниям Билла. При этом глобальная тактика не позволяет оправдывать личные упущения фразами вроде: «Я только выполнял распоряжение своего начальника». С другой стороны, локальная тактика ведет к мгновенному усвоению многих знаний, ибо каждый агент имеет возможность постоянно улучшать свою способность добиваться локальных целей, независимо от того, как те соотносятся с целями других агентов. Конечно, наши агенты обладают сразу несколькими вариантами действий. Какие именно они выбирают, зависит от состояния в конкретный момент времени других агентов, чья работа заключается в том, чтобы узнавать, какими стратегиями обучения пользоваться в зависимости от обстоятельств.
Глобальная схема требует способа не только выявлять тех агентов, чьи действия помогли справиться с задачей, но и определять, какие агенты помогли при реализации промежуточных целей. Например, в ходе строительства башни может оказаться полезным отодвинуть какой-то кубик, чтобы освободить место для другого. Возникает желание запомнить, что это движение помогает в строительстве башни; но если умозаключить из этого, что такое движение полезно всегда, нам никогда не построить другую башню. Когда мы решаем трудную задачу, обычно мало выяснить, правильными или неправильными были действия конкретного агента для достижения общей цели; необходимо, чтобы такие суждения хотя бы в малой степени зависели от локальных условий, то есть от того, насколько деятельность каждого агента помогала или мешала работе других. Эффект вознаграждения должен заключаться в том, чтобы заставить агента реагировать тем образом, который помогает достижению определенной цели – но без чрезмерного вмешательства в достижение иных, более важных целей. Все это диктуется обычным здравым смыслом, но для движения дальше нам понадобится уточнить нашу терминологию. Мы все испытываем стремление к достижению целей, но опыт вовсе не то же самое, что понимание. Что такое цель и может ли машина стремиться к целям?
7.8. Разностная машина
Рассуждая о «целях», мы неизбежно смешиваем в одном слове тысячу значений. Цели присущи всем неведомым агентам, которые включаются в работу всякий раз, когда мы пытаемся изменить себя или внешний мир. Если «цель» объединяет в себе столь много значений, зачем мы увязываем их все в одно слово? Вот некоторые примеры того, что мы обычно вкладываем в свои рассуждения о цели:
«Целеориентированная» система как будто не реагирует напрямую на раздражители или ситуации, с которыми она сталкивается. Вместо того она рассматривает выявленные факты как объекты, которые система использует или игнорирует, как если бы она была связана с чем-то еще пока не существующим. Когда любое нарушение процесса или какое-то препятствие отвлекает такую систему от намеченного курса, она, судя по всему, пытается устранить помеху, обойти ее или превратить в некое преимущество.
Какие процессы внутри машины создают впечатление того, будто машина имеет цель, действует настойчиво и целенаправленно? Имеется конкретный тип машин, наделенных, как представляется, этими качествами; прототип разработали на изложенных ниже принципах, сформулированных в конце 1950-х годов, Аллен Ньюэлл, К. Дж. Шоу и Герберт Саймон. Первоначально эту машину именовали «универсальным решателем задач», но я буду называть ее разностной машиной.
Разностная машина должна обладать описанием «желаемой» ситуации.
Она должна иметь субагентов, которые активируются различиями между желаемой и фактической ситуациями.
Каждый субагент должен действовать таким образом, чтобы сгладить различие, вызвавшее его активацию.
Рис. 14
С первого взгляда схема может показаться одновременно слишком простой и слишком сложной. С точки зрения психологии разностная машина выглядит чересчур примитивной для воплощения совокупности амбиций, разочарований, удовлетворений и огорчений, проистекающих из достижения или недостижения цели. Но это ведь не качества самих наших целей, они возникают из взаимодействия между многими агентами, которые участвуют в достижении целей. С другой стороны, можно задаться вопросом, действительно ли понятие цели должно опираться на столь сложную четырехстороннюю схему отношений между агентами, ситуациями, описаниями и различиями. Мы увидим, что на самом деле все проще, чем кажется, поскольку большинство агентов учитывают существование различий.
7.9. Намерения
Когда мы наблюдаем, как мяч скатывается по склону, то замечаем, что он будто пытается обогнуть препятствия на своем пути. Не ведай мы о гравитации, у нас могло бы возникнуть искушение подумать, что мяч имеет цель двигаться вниз. Но мы знаем, что он не «пытается» что-либо сделать; впечатление намерения формируется только в сознании наблюдателя.
Когда мы экспериментируем со Строителем, нам тоже кажется, что у него есть цель. Всякий раз, когда вы оставляете кубики подальше, он протягивает руку и возвращает их обратно. Всякий раз, когда вы разваливаете башню, он ее восстанавливает. Он словно хочет построить башню и упорно трудится, пока башня не будет построена. Разумеется, Строитель выглядит умнее катящегося мяча, поскольку ему приходится преодолевать более серьезные препятствия. Но стоит нам понять, как работает Строитель, как мы видим, что он не сильно отличается от мяча: все, что он делает, это продолжает искать кубики и ставить их сверху других кубиков. Действительно ли у Строителя