Функциональность обеих программ практически идентична: просмотр документов, возможность копирования графики и текста (и та и другая программа некорректно копирует тексты с кириллическими шрифтами), масштабирования документа при просмотре, распечатка на принтере. Так что при необходимости просмотра документов формата PDF следует обзавестись одной из названных программ.
Очевидно, что загрузка файлов из Интернета – очень полезная функция Всемирной паутины, ведь помимо текстовой информации на веб-сайтах содержится еще много интересного в виде разнообразных файлов.
Глава 3
Поиск в Интернете
Поисковые серверы. Некоторые правила поиска
Поисковые запросы: подробно
Альтернативные средства поиска
Поиск рисунков в Интернете
Поиск музыки и видео
Поиск по FTP-серверам
Проблема поиска во Всемирной паутине не в том, что информации мало, а в том, что ее много. Поэтому отыскать то, что нужно, порой достаточно трудно. Вообще, поиск информации в Интернете – краеугольный камень эффективной работы в Сети. Владение навыками поиска делает Интернет для пользователя полезным инструментом для работы и отдыха. В этой главе поговорим о том, как правильно искать в Сети необходимую информацию. Кроме того, разберемся с поиском файлов (который имеет некоторые особенности по сравнению с поиском текстовой информации), картинок и других ресурсов.
Поисковые серверы. Некоторые правила поиска
Для организации поиска в Интернете существуют специализированные службы, называемые поисковыми серверами. На практике – это веб-сайты, где можно набрать в соответствующей строке ключевые слова, касающиеся интересующей темы, и получить множество ссылок на ресурсы с нужной информацией. Например, на запрос домашние животные поисковый сервер «Яндекс» (подробнее о нем см. ниже) выдает более 14 000 000 ссылок на страницы, содержащие нужные, на его взгляд, сведения. Однако далеко не все так гладко: при посещении некоторых найденных страниц выясняется, что искомой информации на них недостаточно, а то и вовсе нет.
Чтобы искать с максимальной результативностью, не лишне будет знать, как работают поисковые серверы.
Принципы работы поисковых серверов
Поисковый сервер – это довольно сложная программа, точнее комплекс программ, в которых используются специальные алгоритмы анализа содержимого веб-сайтов в масштабах всего Интернета.
Интересный момент: на обработку того же запроса домашние животные у «Яндекса» ушло менее секунды. Невольно возникает вопрос: «А можно ли проанализировать весь Интернет за столь короткое время?» Однозначный ответ на это: «За столь короткое время проанализировать весь Интернет нельзя». Тем не менее факт остается фактом: на обработку запроса затрачено меньше секунды. Ответом на возникшее недоразумение будет описание принципов работы поисковых серверов.
Работа над запросом конкретного пользователя (а заодно и над всеми другими возможными запросами) началась задолго до его введения. Специальная программа, называемая «пауком», просматривает содержимое веб-сайтов.
Ее задачи чем-то схожи с задачами обычного веб-браузера, только вместо того, чтобы показывать страницы на экране, «паук» передает их содержимое другой программе – «путешествующему пауку». Задача «путешествующего паука» – вычленение из загруженной страницы ссылок на другие сайты, по которым снова направляется «паук». Цикл этот повторяется многократно, точнее непрерывно.
На этом работа не заканчивается. За дело принимается программа-индексатор, которая, используя определенные правила, анализирует полученные «пауками» страницы и формирует сложную базу данных поискового сервера. Вот эта самая база данных потом и выдает результаты поиска, которые появляются после обработки введенного запроса. На принципах работы индексатора остановимся поподробнее, так как именно от него зависит то, что войдет в результаты поиска.
В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.
Кроме индекса цитирования учитываются также следующие параметры:
• наличие искомых слов в заголовке страницы или названии сайта;
• частота повторений искомых слов на странице;
• размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями;
• тематика ссылающихся сайтов и некоторые другие.
После ввода запроса пользователем за дело берется последнее звено поискового сервера – система выдачи результатов. В итоге анализа и сопоставления упомянутых выше показателей эта система определяет степень соответствия содержимого страницы условиям запроса. Чем эта степень больше, тем выше страница будет представлена в списке найденных ресурсов.
Возвращаясь к вопросу о скорости обработки запроса, отмечу, что такая высокая скорость обеспечивается за счет того, что страницы Интернета проиндексированы заранее, а результаты поиска составляются на основе информации из базы данных поискового сервера.
Такой способ, как несложно догадаться, имеет очевидный недостаток, заключающийся в том, что содержимое веб-страниц может со временем изменяться, а «паук» не будет успевать найти их и обработать, следовательно, результаты поиска будут неточными. Еще раз, упомянув о времени, необходимом поисковому серверу для просмотра и индексации всего Интернета, скажу, что на это у разных поисковиков уходит от нескольких суток до нескольких недель в зависимости от алгоритма обработки информации. Так что сайты, появившиеся в Сети недавно, в результатах поиска представлены не будут.
Разработчики поисковых серверов борются с этим разными способами и с переменным успехом. Например, большинство современных поисковиков предоставляет такой сервис, как поиск по новостным лентам, обновляющимся каждые несколько минут, и поэтому они чаще индексируются поисковиками. Как бы там ни было, лучшего способа, чем предварительная индексация страниц, сегодня не существует.
Правила построения поисковых запросов
Как уже отмечалось, в Интернете существует множество поисковых серверов, отечественных и зарубежных.
Российские поисковые серверы:
• «Яндекс» – www.yandex.ru;
• «Рамблер» – www.rambler.ru;
• «Апорт» – www.aport.ru;
• Gogo – www.gogo.ru.
Зарубежные поисковые серверы:
• Google – www.google.com;
• Altavista – www.altavista.com;
• Yahoo! – www.yahoo.com.
Для поиска на русском языке лучше подходят российские серверы, на иностранном – зарубежные, хотя, например, Google неплохо справляется с поиском на многих языках. Подробнее о наиболее популярных поисковых системах поговорим позже, рассматривая расширенные возможности поиска, так как у каждой из этих систем есть свои особенности. Сейчас остановимся на некоторых базовых правилах построения поисковых запросов, общих для всех поисковиков.
Несмотря на заявления многих владельцев поисковых серверов, что запросы могут быть написаны практически на языке, который люди используют для общения между собой, это далеко не так. По всей видимости еще не скоро наступит время, когда компьютер и человек смогут общаться на естественном (для человека) языке. Впрочем, нужно отдать должное поисковым серверам: в последнее время они стали гораздо лучше понимать пользователя, и результаты поиска теперь больше соответствуют ожиданиям, чем это было несколько лет назад. Произошло это во многом благодаря внедрению новых языковых технологий.
Из вышесказанного следует, что на практике рядовому пользователю находить нужную информацию стало проще. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Конечно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов. Теперь расскажу еще о нескольких таких фактах.
Поисковые серверы при обработке запроса не учитывают регистр символов. Поэтому запросы Отдых в Турции и отдых в турции с точки зрения поисковика идентичны.
Также следует помнить, что применять знаки препинания в поисковых запросах вовсе не обязательно, точнее, даже не нужно, так как они также игнорируются поисковыми серверами. Зато многие традиционные знаки препинания могут быть использованы при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым.