В сфере научных интересов Брина был сбор и анализ данных. Вместе с профессором Мотвани он открыл студенческую группу “Анализ данных в Стэнфорде”, сокращенно MIDAS (Mining Data at Stanford). Среди ее участников был аспирант Крейг Сильверстейн, который стал первым сотрудником компании Google. Брин и Сильверстейн опубликовали два анализа потребительской корзины, в которых оценивали, какова вероятность того, что потребитель, покупавший предметы А и В, купил бы предметы С и D142. Так Брин заинтересовался методами, позволяющими анализировать данные из интернет-кладовой.
Виноград помог Пейджу выбрать тему для диссертации. Они перебрали с дюжину идей, включая беспилотные автомобили (позднее такой проект появится у Google). В конечном счете Пейдж решил разработать способ оценки влиятельности интернет-сайтов. Он рос в академической среде, поэтому один из критериев взял из научной практики, где авторитетность исследований зависела в том числе от того, как часто на работу ссылаются в примечаниях и указывают в библиографии другие исследователи. По аналогии Пейдж предложил считать, что популярность веб-сайта связана с тем, сколько других интернет-ресурсов приводит на него ссылки.
Однако существовала одна проблема. Тим Бернерс-Ли спроектировал Всемирную сеть таким образом, что гипертекстовые ссылки мог создать каждый, к ужасу пуристов вроде Теда Нельсона.
Любой пользователь мог сослаться на любой веб-сайт без разрешения и без регистрации ссылки в базе данных, к тому же ссылки не обязаны были работать в обе стороны. Вследствие этого Сеть развивалась довольно бессистемно. В таких условиях было трудно посчитать, сколько ссылок ведет на определенную страницу и откуда. Можно было открыть веб-ресурс и посмотреть, на какие сайты он ссылается, однако было невозможно проверить, сколько ссылок ведет на этот сайт и каков их характер. “В этом смысле Всемирная паутина проигрывала другим инструментам для сотрудничества, потому что у гипертекста имелся один серьезный недостаток: он не позволял делать ссылки двунаправленными”143, — рассказывает Пейдж.
Тогда Пейдж начал придумывать, как собрать все ссылки в огромную базу данных, чтобы можно было отследить их источники и выяснить, какие сайты на какие страницы ссылались. Таким образом он надеялся простимулировать сотрудничество между людьми. Его метод позволил бы людям комментировать другие странички на своих сайтах. Если Гарри написал комментарий и дал ссылку на сайт Салли, то посетители сайта Салли смогли бы пройти по ссылке обратно и прочесть его отзыв. “Если мы закольцуем ссылки и сможем ходить по ним в обе стороны, люди смогут комментировать другие сайты и просто ссылаться на них на своей странице”144, — объяснял Пейдж.
Пейдж придумал, как проследить все ссылки в обратном направлении. Он проснулся посреди ночи, и в голову ему пришла довольно дерзкая идея: “Я подумал: а что, если загрузить все до единого интернет-сайты и просто зафиксировать, откуда мы на них пришли. Я схватил ручку и начал писать. Я полночи лихорадочно записывал детали своего плана, убеждая себя, что это сработает”145. Пейдж вынес урок из своего ночного прозрения: “Не нужно очень серьезно относиться к целям, которые вы собираетесь себе поставить, — скажет он позднее израильским студентам. — В университете нам как-то сказали: «Нужно покушаться на невозможное, в разумных пределах». Это очень хороший совет. Вы должны пытаться делать вещи, которые мало кто стал бы пробовать”146.
Составить карту Всемирной паутины было непросто. Даже тогда, в январе 1996 года, она состояла из 100 тысяч веб-сайтов, которые были соединены миллиардом ссылок и на которых хранилось 10 миллионов документов. И каждый год эти цифры росли в геометрической прогрессии. В начале лета 1996 года Пейдж создал поискового робота для сбора данных, который должен был начать с личной страницы Пейджа, а затем переходить по всем ссылкам, которые ему встречались. Он перемещался по сети как настоящий паук и сохранял текст всех гиперссылок, названия страниц и информацию о том, откуда шла ссылка, по которой он попал на конкретный сайт.
Пейдж сказал Винограду, что по примерным расчетам робот-сборщик выполнит свое задание за несколько недель. “Терри кивнул, хотя отлично понимал, что времени понадобится намного больше. Но он мне этого не сказал, Терри был мудр, — вспоминает Пейдж. — Юношеский оптимизм часто недооценивают!”147 Вскоре проект Пейджа составлял практически половину интернет-трафика Стэнфорда, а как минимум один раз привел к отключению Интернета по всему кампусу. Однако администрация университета была на стороне Пейджа. “У меня почти не осталось свободного места на диске”, — писал Пейдж Винограду в электронном письме от 15 июля 1996 года. На тот момент он собрал 24 миллиона URL-адресов и более 100 миллионов ссылок. “Мы проверили только около 15 % сайтов, но пока все выглядит очень многообещающе”148.
Сложный проект Пейджа был как будто создан для Сергея Брина и его математического ума. Брин как раз искал тему для диссертации и был в восторге от идеи поработать с другом: “Проект был потрясающий. Он касался Всемирной сети, которая представляла собой совокупность человеческих знаний. И потом, мне нравился Ларри”149.
Тогда Пейдж и Брин все еще считали, что цель их проекта BackRub — составление каталога веб-ссылок, на основе которого можно было бы запустить систему для комментирования сайтов и анализа их цитируемости. “Что удивительно, я тогда и не задумывался о создании поисковой системы, — признавался Пейдж. — Даже близко таких мыслей не было”. Проект развивался, и друзья изобретали все более сложные способы оценки каждого сайта, основанные на количестве и качестве входящих ссылок. Тогда их озарило: индекс веб-страниц, рассортированных по рейтингу, мог стать фундаментом для первоклассной поисковой системы. Так родилась система Google. Пейдж позднее скажет: “Когда у вас появляется великая мечта, хватайте ее!”150
Пейдж и Брин скорректировали цели проекта и изменили его название. Новое название PageRank отражало суть их работы — все веб-страницы в индексе BackRub получали свой рейтинг (он и назывался PageRank). Фамилия Пейджа использовалась не совсем случайно, это, скорее, служило примером его специфического юмора и льстило его самолюбию. “Да, к сожалению, я тогда имел в виду себя, — позже застенчиво признавался Пейдж. — Мне до сих пор немного неудобно”151.
Попытка составить рейтинг сайтов усложнила их задачу. Вместо того чтобы просто посчитать количество ссылок, ведущих на страницу, Пейдж и Брин решили, что было бы еще лучше, если бы они оценили ценность каждой входящей ссылки. Например, ссылка New York Times должна была иметь больший вес, чем ссылка с сайта Джастина Холла, который он вел из общежития колледжа Суортмор. Получался рекурсивный процесс с несколькими петлями: каждый веб-сайт получал место в рейтинге согласно количеству и авторитетности входящих ссылок, а ценность этих ссылок зависела от рейтинга их родного сайта. Влиятельность же этого сайта также определялась по количеству и авторитетности ссылок, которые вели на него. “Это все рекурсия, — пояснял Пейдж. — Один большой круг. Но математика восхитительна, она позволяет решать такие задачи”152.
(adsbygoogle = window.adsbygoogle || []).push({});