завершение этой главы мы хотим немного поговорить об искусственном интеллекте (ИИ) и его приложениях. Как главный по данным, вы должны знать о существовании двух типов искусственного интеллекта. Первый из них – общий искусственный интеллект (ОИИ), призванный воспроизвести процесс человеческого познания. Здесь вы можете вспомнить свой любимый научно-фантастический фильм. Однако прогресс в области ОИИ столь незначительный, что поводов для беспокойства пока нет.
Тем не менее значительный прогресс был достигнут в области искусственного интеллекта узкого назначения (или слабого ИИ). Она охватывает компьютерные системы, которые хорошо справляются с какой-то одной задачей, например, с распознаванием лиц, переводом речи или обнаружением признаков мошенничества. Эффективность слабого ИИ обусловлена эффективностью машинного обучения. Можно сказать, что ИИ – это и есть машинное обучение. Говоря об ИИ, мы на самом деле говорим о машинном обучении. А если задача связана с обработкой перцептивных, неструктурированных данных, то речь идет о глубоком обучении. Машинное обучение – это подраздел ИИ, а глубокое обучение – подраздел машинного обучения (рис. 12.9).
Рис. 12.9. Глубокое обучение – это подраздел машинного обучения, которое является подразделом искусственного интеллекта
Некоторые люди используют термин ИИ более свободно, чем другие. Например, в обществе принято называть систему рекомендаций фильмов искусственным интеллектом, тогда как в ее основе лежит скорее машинное или статистическое обучение. Почему это важно? Дело в том, что понимание того, что создание «ИИ», о котором говорится в новостях, требует больших наборов данных, собранных у таких людей, как вы и я, ставит вопрос о качестве этих данных, изменчивости, возможной утечке, переобучении и множестве других практических проблем. ИИ усиливает закономерности, содержащиеся в данных, собранных в прошлом; речь не идет о создании чего-то напоминающего человеческое сознание.
Преимущества технологических гигантов
Однако существование этой дихотомии объясняется преимуществами технологических гигантов, которые на протяжении многих лет незаметно собирали размеченные данные для своих моделей машинного и глубокого обучения.
Помните, как много лет назад вы щелкали по своим фотографиям в социальных сетях? То же самое делали миллионы других людей, предоставляя этим платформам множество изображений (входных данных) с расположением лиц (выходных данных). Теперь благодаря глубокому обучению система способна нарисовать рамку вокруг вашего лица и отличить вас от вашего друга. А надоедливые капчи, предлагающие вам доказать, что вы человек, при посещении определенных сайтов («Выберите все изображения с пересечением улиц»), используются для глубокого обучения сетей, лежащих в основе работы систем беспилотных транспортных средств[139]. Возможно, вы решите воздержаться от поездок на беспилотном автомобиле до тех пор, пока веб-сайты не перестанут просить вас идентифицировать знаки «стоп» на изображениях.
При обсуждении глубокого обучения сбору данных уделяется наименьшее внимание, поскольку эта тема гораздо менее захватывающая по сравнению с разговорами о человеческом мозге и автоматической классификации изображений. Но если вас интересует то, как ваша компания может извлечь выгоду из глубокого обучения или машинного обучения вообще, то вашим первым шагом будет сбор размеченных данных. Если у вас есть данные (например, изображения, которые нужно разметить), но вы не хотите тратить на это время – не проблема. Для решения этой задачи создана целая индустрия, и вы можете заплатить сущие копейки за то, чтобы другие люди разметили ваши данные за вас. Так что будущее, в котором можно легко получить доступ к необходимым наборам данных, может быть гораздо ближе, чем кажется.
Этический аспект глубокого обучения
Авторы данной книги – не специалисты по этике и не те люди, которые вправе вести эту дискуссию. С другой стороны, главный по данным не обязан вести дискуссию для того, чтобы в ней участвовать. Поскольку вы находитесь на переднем крае работы с данными, вы должны обеспечить их добросовестное использование.
Объем данных растет гораздо быстрее, чем наша способность формулировать связанные с этим проблемы. Помимо того, что вызывает критику в случае со всеми новыми технологиями, использование данных порождает дополнительные проблемы. Они связаны с нашей ошибочной верой в то, что они всегда отражают непоколебимую истину, и с тем, что алгоритмы зачаровывают нас кажущейся почти человеческой способностью к принятию решений.
И хотя мы не раз подчеркивали, что алгоритмы не воспроизводят процесс человеческого мышления, результаты их применения могут заставить нас в это поверить. Например, хакеры используют такую разновидность алгоритмов глубокого обучения, как генеративно-состязательные сети (GAN), для создания так называемых дипфейков. Это позволяет им накладывать фальшивое лицо поверх лица реального человека, создавая иллюзию того, что этот человек сделал что-то, чего на самом деле не делал. Фейковые новости можно распространять в Twitter, используя для этого реалистичные заголовки, созданные на основе реальных заголовков. Именно так с помощью данной технологии нас можно обмануть.
На более глубоком уровне нам следует проявлять осторожность в том, какие именно человеческие функции мы пытаемся передать алгоритмам глубокого обучения. Например, насколько полезным для судьи может оказаться инструмент, прогнозирующий вероятность рецидива для правонарушителя с помощью ИИ?
Как мы уже говорили, основная причина критики глубокого обучения – огромная путаница с тем, что происходит за кулисами. Очень трудно объяснить гигантское математическое уравнение с миллионами параметров. Однако эти уравнения могут использоваться при вынесении приговора преступникам, лежать в основе работы функции безопасности на телефоне (вроде iPhone Face Scan компании Apple) или применяться системой вашего автомобиля для экстренного торможения или поворота, если на дороге появится олень.
Более того: зачастую то, что мы моделируем, – не просто точки данных, а конкретные люди. Различные аспекты их идентичности кодируются и снабжаются метками. Когда мы получаем данные, они могут не иметь для нас большого значения. Но если мы признаем тот факт, что объем данных растет быстрее, чем наша способность формулировать связанные с этим проблемы, нам не стоит предполагать, будто общество уже дало нам добро на их использование. То, что мы можем собирать определенные признаки и запускать алгоритмы, не всегда значит, что нам стоит это делать. И хотя мы предоставили вам инструменты для понимания хорошо сконструированных приложений глубокого обучения, вам не следует предполагать, что в каждом приложении это сделано правильно. Даже в своей организации стоит скептически относиться к заявлениям о том, что глубокое обучение решает проблемы. Попросите не просто показать вам данные и алгоритмы, но и спросите, кого именно затрагивает полученный результат, а затем решите, насколько вас это устраивает.
Короче говоря, машины становятся умнее, и вам не следует от них отставать. Не воспринимайте собственную роль в процессе использования данных для улучшения результатов бизнеса и общества в целом как нечто само