— Как в сравнении с вашей стратегией выглядит стратегия Google и других поисковиков? Вы движетесь в сторону обострения конкуренции или в сторону специализации, когда каждый пойдет своим путем и не будет мешать другому?
— В поиске мы с ними, конечно, продолжим конкурировать, и это хорошо для всех: и для нас, и для них, и для пользователей. Наличие альтернативы всегда лучше, чем один Большой Брат. И, кстати, когда мы идем в Турцию, мы видим свою миссию еще и в этом. Европа, например, тоже пока не привыкла к выбору. Полмира таких. Мы считаем, что нести людям выбор — это правильно.
— Но похоже, что со временем поиск вообще перестанет быть главным продуктом «Яндекса». Siemens, к примеру, начинала с производства телефонов, а потом телефоны стали составлять ничтожно малую долю ее доходов. На прошлогоднем чемпионате мира по программированию в Санкт-Петербурге вы с большим воодушевлением рассказывали про индустрию обработки данных. Можно о ней подробнее? Это похоже на начало какой-то глобальной истории.
— Так оно и есть. Для меня сейчас это крайне важная тема, я занимаюсь ею очень внимательно. Понимаете, в истории человечества интернет стал первой средой, где появился огромный массив информации. Разве что в финансах еще было сопоставимое количество данных, но именно интернет научился очень активно с ними работать. Сначала это были просто потоки данных, потом оказалось, что это огромный ресурс. В том числе и для машинного обучения, которое сегодня переживает второе рождение. Вообще тема машинного обучения в науке существует уже лет тридцать, но, едва зародившись, она вскоре достигла своего локального оптимума и немного заглохла, не найдя действительно серьезного экономического применения. Перевод, распознавание — все это требует огромных массивов данных, система обучается на собственном информационном потоке, а раньше таких потоков не было. Теперь же, с их появлением, машинное обучение резко рвануло вперед. Сначала проснулся перевод. «Яндекс» переводит уже с 36 языков, и делает это вполне прилично. Это, конечно, не литературный перевод, но и не та смешная белиберда, которая была еще совсем недавно.
— А как вообще работает «Яндекс. Перевод»?
— Раньше машинный перевод строился на модели «смысл-текст»: возьмем любой язык, переведем его слова в универсальный над-язык смыслов, а потом переведем эти смыслы в слова другого языка — и получим переведенный текст. Такая модель доминировала в 70–80-е годы и автоматизировалась в 90-е. Все переводы 90-х годов построены на этой идеологии. В 2000-х появился поиск, и стало понятно: чтобы перевести текст, вообще не обязательно понимать смысл. Человечество столько всего уже напереводило, что вероятность найти в сети два аналогичных текста на разных языках достаточно велика. Как определить, что это одинаковые тексты? Очень просто. В них много одинаковых слов. Если в документе из 1000 слов 800 представляют собой словарные пары, то, скорее всего, это перевод с одного языка на другой. И дальше уже можно разбивать тексты на абзацы, на предложения и как-то с этим работать. То есть машина переводит не словами, а готовыми кусками, машина на это способна. На самом деле если подумать, то такой метод перевода даже больше соответствует тому, как человек в реальной жизни учится языку в детстве. Ведь мы едва ли рассуждаем в терминах «смысл-текст», когда нам говорят, например: «Возьми грушу». Но перевод — это всего лишь один пример прорыва машинного обучения на больших объемах данных.
— Хотелось бы еще…
— Другой пример, когда машина способна действовать лучше человека, — это распознавание письменного текста. Есть такая российская международная компания ParaScript, она, в частности, занимается распознаванием рукописного текса. Ее софт присутствует сегодня почти в любом приборе, которым мы пользуемся. Лет десять назад ParaScript получила задачку распознавать текст на конвертах для американской почты. У почты США тогда были гектары сортировочных бараков, где сидели тетеньки, читали конверты и раскладывали их по адресам. Ребята из ParaScript пришли и сказали: давайте мы вам это безобразие ликвидируем — 10 процентов экономии нам. И с 2002 по 2007 год они оптимизировали американскую почту, получали огромные деньги. Потом, правда, деньги им платить почти перестали, так как нечего стало экономить. Машина стала распознавать рукописный текст лучше, чем человек. Сейчас это направление шагнуло еще дальше. Появились технологии распознавания музыки, голоса, предметов на экране камеры. Машина уже способна отличить, например, котенка от шарика. А это уже шаг в сторону роботов-навигаторов, благодаря которым машины даже без водителя будут понимать, куда ехать.
— Кажется, я перестал понимать, какое все это имеет отношение к «Яндексу».
— «Яндекс» умеет работать с большими объемами данных. И это наше базовое умение, наш ежедневный хлеб. Я просто привел примеры того, как машины учатся на больших объемах данных и в конце концов делают что-то лучше людей. Дело идет к тому, что на этом направлении случится примерно такая же революция, как в эпоху индустриализации, когда машины стали заменять человеческую физическую силу. Экскаватор копает быстрее, чем человек лопатой, а мы лопатой копаем быстрее, чем руками, — это нормально. Лифт нас поднимает на двадцатый этаж, мы к этому привыкли, нам не кажется, что машины нас поработили. То же самое сейчас начинается в области замены человеческой головы. Машины будут лучше нас переводить, распознавать и делать еще много чего.
— И этот процесс возглавят компании, которые сейчас занимаются поиском?
— По всей видимости, да. Потому что именно поисковые технологии сидят сегодня на больших объемах данных и умеют с ними работать.
— Вы говорите о больших объемах данных как о полезных ископаемых.
— Это почти не является преувеличением. Большие массивы информации в совокупности с технологиями их обработки — это огромный возобновляемый ресурс.
— Илья Сегалович как-то сказал, что «Яндекс» всего лишь монетизирует математику. Мне тогда эта фраза показалась красивой метафорой, но я не представлял себе, что ее можно понимать буквально. То есть мы можем просто продавать математику, сделать ее одним из самых серьезных источников дохода государства?
— Во всяком случае, для этого у нас сейчас есть все возможности. Поиск оказался на переднем крае всего машинного обучения. А машинное обучение открывает огромные возможности для развития национальных экономик. Похоже, что картинки из фантастических фильмов, когда приборы с тобой разговаривают и тебя понимают, скоро станут явью. Мы спокойно будем относиться к тому, что за нас думают и угадывают наши желания. Это огромная индустрия.
(adsbygoogle = window.adsbygoogle || []).push({});