А все-таки при чем тут Библия?
Я же сказал, чуть позже. Сначала — еще немного про правильные поступки.
Если ты такой умный, почему такой бедный?
В один прекрасный день Волож пришел в «последнее купе» CompTek с безумной идеей — пойти в Институт проблем передачи информации РАН и за бешеные деньги купить там легальную электронную копию орфографического словаря русского языка. Безумие этого поступка заключалось в том, что за интеллектуальную собственность тогда не платил никто. Более бесплатным был только воздух.
— В этом НИИ работала команда академика Юрия Дерениковича Апресяна, это великий человек, один из крупнейших наших лингвистов, — говорит Илья Сегалович. — Когда они поняли, что вот эти молодые люди пришли, чтобы легально купить их продукт, они были так шокированы, что сразу скинули цену на порядок. Каким-нибудь японцам институт продавал этот словарь за 10 тысяч долларов, нам — то ли за 600, то ли за 800, я уже точно не помню. И даже еще потом помогали консультациями и ценными советами.
— А зачем вам вообще этот словарь был нужен? И почему именно этот, а не какой-нибудь другой?
— Чтобы улучшить поиск, усовершенствовать систему морфологического распознавания слов. В сущности, этот словарь был улучшенной версией знаменитого Обратного словаря Андрея Зализняка. Его перевели в электронный вид еще в середине восьмидесятых в Вычислительном центре Академии наук — и этой версией мы располагали давно. Но так как Аркадий Борковский нас покинул и улучшать ту модель было некому, мы решили сотрудничать с командой Апресяна, которая, в свою очередь, тоже занималась совершенствованием Обратного словаря. На тот момент это была, пожалуй, лучшая команда лингвистов в стране.
Кто такой А. А. Зализняк?
Андрей Анатольевич Зализняк — академик РАН, доктор филологических наук, лауреат Государственной премии России. Родился в 1935 году в семье инженера (отец) и химика (мать). Окончил филфак МГУ, учился в Сорбонне у французского структуралиста Андре Мартине.
«Грамматический словарь русского языка» под его редакцией был издан в 1977 году и стал результатом многолетней работы. Он включает в себя около 100 тысяч словоформ с их полным морфологическим описанием. Этот словарь еще называют Обратным — поскольку слова в нем расположены в обратном (инверсионном) порядке, то есть по алфавиту конечных, а не начальных букв слова. Именно поэтому он получил большую популярность среди поэтов-графоманов, но вообще-то главная научная ценность Грамматического словаря А. А. Зализняка в другом. Он считается основополагающим трудом по морфологии русского языка. В нем впервые был предложен системный подход к описанию грамматических парадигм, включающих не только изменение буквенного состава слов, но и ударения. Электронная версия словаря Зализняка легла в основу большинства современных компьютерных программ, работающих с русской морфологией.
Сотрудничество с командой Апресяна дало новый импульс работе «Аркадии». Михаил Маслов, Дмитрий Тейблюм, Сергей Трифонов — в команде появились новые люди, которые сплотились вокруг новой задачи.
— Словарь купили, надо с ним что-то делать. Аркаша посмотрел на меня и говорит: «Давай», — вспоминает те дни Сегалович. — Я занялся плотно морфологией, лингвистикой, стал писать поисковую часть. И совершенно расхотелось куда бы то ни было уезжать. А когда поисковая часть была написана, остался один вопрос, на который надо было найти ответ: что бы такого проиндексировать?
Что бы такого проиндексировать?
«Библия. Версия 1.0» — написано крупными буквами на фиолетовой коробочке с черно-красным ободком. Раритет из далеких теперь 90-х вот уже минут двадцать кочует из рук в руки по конференц-залу, где сегодня проходит так называемый Курс молодого бойца (КМБ). Около сотни молодых людей, которых взяли на работу в «Яндекс» лишь за последний месяц, слушают лекцию Мити Иванова — директора по проектам. О прошлом и будущем компании, ее целях и ценностях. «Лучше уповать на Господа, нежели надеяться на человека», — сообщает анонс на коробочке 1997 года выпуска. «Самый главный ресурс „Яндекса“ — это люди, — противоречит Митя. — Здание взято в аренду. Железо каждый год устаревает. В сущности, люди — это единственное, что у нас есть».
«Где двое или трое соберутся во имя мое, там и „Яндекс“ среди них», — зачем-то пишет в блокнот мой сосед, юноша бледный со взором горящим.
Если бы в этой истории не было эпизода с «Библейским компьютерным справочником», его стоило бы выдумать. Впрочем, двадцать лет спустя Волож утверждает, что не вкладывал в этот жест никакого особого пафоса.
— Когда мы с помощью апресяновских людей научились хорошо искать по большим массивам, мы не нашли ничего лучше, как прикрутить наш поиск к корпусу Библии, потому что все остальное было копирайтное, — предельно банально объясняет это решение Аркадий. Но, похоже, здесь он скромничает. Произведений большого объема в мировой литературе хватает. Авторские права действуют лишь в течение 70 лет после смерти автора. Выбор огромен. Почему же все-таки именно Библия?
Версия Ильи Сегаловича звучит более пассионарно:
— Конечно, мы не рассчитывали заработать на «Библейском компьютерном справочнике» много денег. Мы делали это исключительно из общегуманитарных соображений. Мы понимали, что Библия — самый популярный текст в мире, и если кому-то нужен какой-то поиск по какому-то массиву русскоязычных текстов, то это именно оно. Потому что больше ничего такого не было, интернета не было. А все, что связано с христианской культурой, тогда воспринималось исключительно позитивно — как нечто общекультурное, общемировое, общечеловеческое.
Почти половину священной книги пришлось набирать вручную, этим начали заниматься еще «на Гагарина». Возникало много спорных вопросов по тексту — стали приглашать в гости знакомых священников — православных, католических, протестантских. В итоге проект оказался удачным. Тираж Библии на дискетах стал неплохо расходиться, а заодно привлекать новых клиентов. Вскоре из Института мировой литературы поступил заказ на индексирование полного собрания сочинений Александра Сергеевича Грибоедова. Несколько лет спустя случилось 200-летие со дня рождения Пушкина, и удалось получить заказ еще на одного Александра Сергеевича. Дело двинулось с мертвой точки.
Зачем гипотезам генерация?
Вместе с «Библейским проектом» окончательно расцвел Сегалович, который до той поры был скорее трудолюбивым сотрудником, нежели правой рукой Воложа. Его технические и гуманитарные знания теперь понадобились в полной мере. Если поиск по Международному классификатору изобретений имел дело только с существительными, то Библия потребовала глаголов и прочих частей речи. А главное — теперь пришлось работать с живым языком. Чтобы это стало возможным в полной мере, Илья разработал «механизм генерации гипотез». За этим сложным названием кроется очень простая вещь.
(adsbygoogle = window.adsbygoogle || []).push({});