Пейдж и Брин скорректировали цели проекта и изменили его название. Новое название PageRank отражало суть их работы — все веб-страницы в индексе BackRub получали свой рейтинг (он и назывался PageRank). Фамилия Пейджа использовалась не совсем случайно, это, скорее, служило примером его специфического юмора и льстило его самолюбию. “Да, к сожалению, я тогда имел в виду себя, — позже застенчиво признавался Пейдж. — Мне до сих пор немного неудобно”151.
Попытка составить рейтинг сайтов усложнила их задачу. Вместо того чтобы просто посчитать количество ссылок, ведущих на страницу, Пейдж и Брин решили, что было бы еще лучше, если бы они оценили ценность каждой входящей ссылки. Например, ссылка New York Times должна была иметь больший вес, чем ссылка с сайта Джастина Холла, который он вел из общежития колледжа Суортмор. Получался рекурсивный процесс с несколькими петлями: каждый веб-сайт получал место в рейтинге согласно количеству и авторитетности входящих ссылок, а ценность этих ссылок зависела от рейтинга их родного сайта. Влиятельность же этого сайта также определялась по количеству и авторитетности ссылок, которые вели на него. “Это все рекурсия, — пояснял Пейдж. — Один большой круг. Но математика восхитительна, она позволяет решать такие задачи”152.
Математические задачи именно такого уровня интересовали Брина. “Чтобы достичь нашей цели, мы решили немало математических проблем, — вспоминает он. — Мы как будто превратили Всемирную паутину в огромное уравнение, в котором были сотни миллионов переменных — рейтинги всех сайтов Интернета”153. Они опубликовали статью в соавторстве со своими научными руководителями, где разъяснили сложные математические формулы, основанные на количестве входящих ссылок и относительном рейтинге каждой из этих ссылок. Затем они объяснили все то же самое простыми словами, чтобы было понятно и непрофессионалам: “У веб-сайта будет высокий рейтинг, если будет высока сумма рейтингов его входящих ссылок”. Сюда относились случаи, когда у страницы имелось много входящих ссылок и когда на страницу ссылалось не так много, но авторитетных сайтов”154.
Мог ли рейтинг PageRank улучшить результаты поиска — это был вопрос на миллион. Пейдж и Брин провели один сравнительный тест: попробовали набрать слово “университет” в разных поисковых системах. AltaVista и другие сайты выдавали список случайных страниц, в названии которых встречалось это слово. “Помню, я как-то спросил авторов тех систем: «Зачем вы кормите людей бессмыслицей?»” — вспоминает Пейдж. Ему ответили, что такие результаты поиска — его вина и что ему нужно уточнять свои поисковые запросы. “Благодаря лекциям по взаимодействию человека и машины я знал, что обвинять пользователей — не лучшая идея. То есть владельцы тех поисковиков в корне ошибались. Мы были уверены, что пользователь всегда прав, поэтому нам удалось создать поисковую систему, которая была лучше остальных”155. Когда они ввели слово “университет” в свою систему, учитывающую рейтинг PageRank, то получили следующие результаты: Стэнфорд, Гарвард, Массачусетский технологический институт и Университет Мичигана. Такой список невероятно их порадовал. “Вот это да, — сказал себе Пейдж. — Мне и всей нашей команде стало очевидно, что можно искать информацию намного эффективнее, если уметь определять авторитетность веб-сайтов, основываясь на мнении общественности, а не на данных самих страниц”156.
Пейдж и Брин продолжили совершенствовать свою поисковую систему. Алгоритм PageRank “научился” учитывать такие факторы, как частота употребления, размер шрифта и расположение ключевых слов на веб-странице. Сайт получал больше баллов, если ключевое слово было расположено в его URL-адресе или названии, а также если оно было набрано заглавными буквами. Пейдж и Брин анализировали каждый блок результатов и слегка поправляли формулу. Они вычислили, что важную роль необходимо отводить якорному тексту ссылок, то есть “кликабельным” подчеркнутым словам, которые представляли собой гиперссылку. Например, слова “Билл Клинтон” являлись якорным текстом для многих ссылок, ведущих на портал whitehouse.gov, чтобы этот сайт появлялся среди верхних результатов, когда пользователь искал слова “Билл Клинтон”. При этом на стартовой странице сайта whitehouse.gov имя Билла Клинтона не было по-особенному расположено или выделено. Тем временем конкурирующая поисковая система на запрос “Билл Клинтон” в качестве первого результата поиска выдавала сайт “Анекдот дня от Билла Клинтона”157.
Поисковой системе Пейджа и Брина приходилось иметь дело с огромным количеством страниц и ссылок, в частности, поэтому они назвали ее Google. Гугол (googol) — это число, состоящее из единицы и сотни нулей. Название предложил Шон Андерсон, аспирант из Стэнфорда, с которым Пейдж и Брин делили учебную комнату. Оказалось, что домен Google свободен, и Пейдж моментально его купил. “Мне кажется, мы не поняли, что сделали орфографическую ошибку, — позднее признается Брин. — Но googol все равно был занят. Какой-то парень уже купил домен Googol.com и не хотел с ним расставаться, сколько я его ни уговаривал. Поэтому мы оставили себе Google”[116]. Это было забавное слово. Оно хорошо запоминалось и легко превращалось в глагол158.
Пейдж и Брин развивали Google в двух направлениях. Во-первых, они улучшали техническое оснащение своего проекта: были значительно увеличены пропускная способность интернет-канала, вычислительная мощность серверов и объем их памяти. Здесь они обошли всех конкурентов. Имея такие ресурсы, их поисковые роботы могли индексировать сотни страниц в секунду. Во-вторых, Пейдж и Брин фанатично изучали поведение пользователей, чтобы постоянно корректировать свои алгоритмы. Если пользователь кликал по верхним результатам и больше не возвращался в Google, это означало, что он нашел то, что искал. Однако если человек проходил по предложенным ссылкам, но тут же возвращался на страницу поиска и изменял свой запрос, значит, он был недоволен результатами. В таком случае инженерам следовало рассмотреть отредактированный запрос и понять, что же пользователь изначально пытался найти. Если же пользователи проматывали две или три страницы с результатами, то, значит, их не устраивал порядок выведения ссылок. Как заметил журналист Стивен Леви, благодаря постоянному потоку обратной связи разработчики Google узнали, что пользователи могут набирать “собаки”, но искать при этом щенков или что слово “кипячение” может означать горячую воду. В конечном итоге Google научится “понимать”, что запрос “хот-дог” (“горячая собака”) не имеет отношения к кипячению щенков159.
(adsbygoogle = window.adsbygoogle || []).push({});