Как найти то, что нужно? (Учимся правильно пользоваться поисковиками)

О. Африки, 01 ноября 2005 ( редакция: 29 октября 2018 ) http://www.akzia.ru/view/gazeta/hi_techno/1370.html

Поисковая машина — это, в первую очередь, робот (если точнее — пять роботов: spider — программа, которая скачивает веб-страницы, crawler, который ходит по всем ссылкам, найденным на странице, indexer, который анализирует веб-страницы, скачанные пауками, the database — хранилище всех, скачанных спайдером и проанализированных индексером страниц и search engine results engine — система выдачи результатов).

Роботам плевать на человеческий фактор — они воспринимают только тот язык, который им понятен. В сети — терабайты информации, и среди нее совсем не много «правильно упакованной». Если вы кинете в почтовый ящик конверт без адреса или напишете неправильный адрес, адресат никогда не получит письма, даже если на почте работают бесконечно отзывчивые и милые люди.

Спайдеры, формирующие базу данных, из которой впоследствии выдаются результаты — чудесные роботы. Они очень стараются индексировать как можно больше страниц — это в их же интересах. Но для того, чтобы машина качественно выполняла свою работу (т.е. выдавала именно то, что нужно вам), ей нужно помочь. О том, как могут помочь поисковым системам обладатели информации, мы поговорим в следующем номере. А сейчас — о том, как находить то, что вам нужно.

РЕЗУЛЬТАТЫ ПОИСКА
Главная цель, к которой стремятся разработчики поисковых систем, — выдавать в результатах поиска именно то, что максимально точно отвечает запросу. Это называется релевантностью страниц. Релевантность определяется следующим образом: спайдер просматривает страницы на предмет наличия запрашиваемых пользователем слов в заголовках, списке ключевых слов и описании страницы, на самой странице, в подписях к картинкам. Чем выше процент присутствия искомого слова, тем выше релевантность.
При этом спайдер обращает внимание на такие параметры, как форматирование. То есть считает выделенный, к примеру, цветом текст достаточно важным. Но есть еще несколько моментов — например, индекс цитирования (у Google этот коэффициент называется Page Rank), который зависит, грубо говоря, от того, насколько часто ссылаются на страницу.

Формула, по которой рассчитывается Page Rank:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),
где PR(A) — это вес PageRank страницы A (тот вес, который мы хотим вычислить), D — это коэффициент затухания, который обычно устанавливают равным 0,85, PR(T1) — вес PageRank страницы, указывающей на страницу A, C(T1) — число ссылок с этой страницы, PR(Tn)/C(Tn) означает, что мы делаем это для каждой страницы, указывающей на страницу A.

Несмотря на то, что логика у такой оценки релевантности железная, на первой странице результатов поиска все равно часто выдается гора хлама, а действительно важная информация, удовлетворяющая запросу, «проваливается» на пятые-шестые страницы. Виной этому — битва за первую страницу результатов, в которой используются не всегда честные методы.
Например, cloaking (скрытие) — это технология, которой оптимизаторы пользуются достаточно часто в работе с поисковыми системами. Если не вдаваться в подробности, то принцип заключается в следующем: спайдеру показывается одна страница, а посетителю — другая.
Стоит отметить, что разработчики и редакторы поисковых систем следят за такими вещами и запрещают к индексации подобные страницы. Но, тем не менее, подобных страниц меньше не становится, и чтобы отсечь мусор, нужно как можно четче формулировать запросы.

ФОРМУЛИРОВАНИЕ ЗАПРОСОВ
Если вы придете в библиотеку и попросите «ну такую...в зеленой обложке...» книгу, в лучшем случае вы получите тонну литературы, из которой в последствии придется путем просмотра всех книг с зеленой обложкой выбирать то, что вам действительно нужно. В худшем случае, библиотекарь вас просто «пошлет». С поисковыми системами та же история — желательно знать хотя бы правильное название того, что вы ищете.

ПРОВЕРЯЙТЕ ОРФОГРАФИЮ, ИСПОЛЬЗУЙТЕ СИНОНИМЫ, УТОЧНЕНИЯ
Не нужно забывать о том, что интернет делают люди, а сколько людей, столько и мнений. При формулировании запроса имеет смысл подумать о возможных синонимах. Для того чтобы система выдала все страницы, содержащие хотя бы одно из перечисленных слов, их следует перечислить через вертикальную черту (|).

КОНКРЕТИЗИРУЙТЕ СВОИ ЗАПРОСЫ
Так, на запрос «рефераты +история» поисковая машинка выдаст вам ссылки на страницы с рефератами по истории (187239 страниц), в то время как на запрос «рефераты» вы получите не менее 4804101 страниц.

ИЩИТЕ ПОХОЖИЕ ДОКУМЕНТЫ
Если один из результатов удовлетворяет вас более остальных, смело кликайте «найти похожие документы» (ссылка располагается под кратким описанием страницы) — система проанализирует указанную страницу и вычленит из результатов похожие на нее. Так же очень полезная функция «искать в найденном», которая позволяет от раза к разу сужать область.

РАЗМЕР ИМЕЕТ ЗНАЧЕНИЕ
Имена собственные пишите с заглавной буквы, но помните о том, что поисковая машина чувствительна к регистру — если написать слово с большой буквы, в результаты поиска не попадут документы, в которых искомое слово написано с маленькой.

СКЛАДЫВАЙТЕ И ВЫЧИТАЙТЕ
Если вам нужны документы, содержащие одновременно несколько слов, поставьте перед этими словами знак «плюс». Если же вы хотите исключить какие-то слова, ставьте перед ними знак «минус».
Например, в результате запроса «аренда квартир без посредников» вы получите не только ссылки на частные объявления, но и информацию о ресурсах, предлагающих услуги риэлтеров, и черт знает что еще «без посредников». В то время как запрос «аренда+квартир+без+посредников» вы получите именно то, что вам нужно.
Так же стоит использовать «-» и «+» в том случае, когда вам нужно найти цитату или определенную фразу, содержащую стоп-слова (местоимения, предлоги, частицы).

К ЧЕРТУ МОРФОЛОГИЮ!
Поиск учитывает все формы слова независимо от того, в какой форме вы его употребили. Таким образом, на запрос «выборы» вы получите документы, содержащие так же все возможные формы указанного слова — «выборов», «выбору», «выборами» и так далее. Для того, чтобы поисковая машина показала только те документы, в которых содержится слово «выборы», необходимо перед запросом поставить «!» — !выборы.

Запрос следующего вида «выборы ~~ !выборами» поможет найти документы, содержащие словоформу «выборами», но без учета документов, найденных по предыдущему запросу.
Вообще оператор тильда (~) позволяет, как и оператор «-» исключать из результатов поиска документы, в которых в пределах одного предложения содержится слово, указанное после оператора.

ЯЗЫК ЗАПРОСОВ
Несколько слов, набранных через пробел, означают, что все эти слова должны находиться в пределах одного предложения. Оператор «&» дает тот же результат.
Когда приходится искать устоявшиеся словосочетания в документах, помогает так называемый «поиск с расстоянием» — если словосочетание окружить кавычками, в результатах будут отображены документы, в которых эти слова идут строго друг за другом.
В том случае, когда нужно указать иное расстояние между словами, следует использовать оператор «/», а после него указывать цифру — такой синтаксис позволит найти документы, в которых расстояние между искомыми словами не превышает определенного количества слов. То есть, по запросу «поставщики /2 кофе», вы обнаружите информацию о поставщиках колумбийского кофе, поставщиках кофе из Колумбии и так далее.

Для того, чтобы найти целое выражение, необходимо использовать скобки. Запрос (история | технология | изготовление) /+1 (сыра | творога) позволяет найти любую из указанных фраз: «история сыра», «технология творога», «изготовление сыра», «история творога».

Как правило, заголовки страниц формируются из названия компании/ресурса и какого-то набора ключевых слов. В том случае, если вам нужно найти, к примеру, сайт определенной компании, имеет смысл искать в заголовках страниц — $title @кция масс-медиа. Так же можно искать на определенном ресурсе или, наоборот, исключить его из поиска — запрос «@кция ~~ #url=”www.massmedia.akzia.ru”» выдаст список сайтов, на которых упоминается название компании, исключая корпоративный сайт, а запрос «#link=”www.akzia.ru”» покажет список сославшихся на указанный ресурс страниц.
Существует возможность искать по ключевым словам (keywords), описанию (abstract) или в подписях к изображениям (hint). Синтаксис: #hint=(искомое слово).

Перед выдачей результатов поиска пользователю найденные документы сортируются в соответствии с релевантностью в порядке убывания. Но на порядок сортировки можно влиять. Для этого нужно использовать операторы веса и уточнения запроса. Синтаксис у «регулятора» следующий: слово:число или (поисковое_выражение):число.
К примеру, запрос «молодежная пресса:5» позволит вывести на первые позиции те документы, в которых чаще встречается слово «пресса».
В случае, если запрос будет выглядеть следующим образом — «молодежная <- пресса», будут найдены документы, содержащие слово «молодежная», но на первую страницу система выведет те из них, которые содержат слово «пресса».

РАСШИРЕННЫЙ ПОИСК
Запомнить все возможные операторы, которые существенно улучшают качество поиска, не так просто. На самом деле, можно ничего не запоминать, практически все те же операции над запросами можно производить в рамках «расширенного поиска», простой и удобный интерфейс которого позволяет без особенных заморочек исключать лишнее и искать необходимое. Но расширенный поиск, к сожалению, не позволяет влиять на сортировку и некоторые другие вещи.

ИЩИТЕ, ДА ОБРЯЩЕТЕ
«Яндекс» (Rambler, Апорт, Mail.ru) — не панацея. Универсальной поисковой системы, к сожалению, не существует. Пытались ли вы хоть раз купить в круглосуточной палатке с пивом, предположим, прижизненное издание Г. Ибсена 1900 года? И что вам отвечали? Поисковые системы много культурнее, но в любом случае искать нужно там, где можно найти.

Таким образом, для поиска файлов имеет смысл пользоваться системой, которая ищет файлы там, где они обычно находятся — на ftp-серверах
(filesearch.ru). В том случае, если понятие «файлы» для вас сводится к mp3, пользуйтесь специализированными поисковыми системами. Например,
oth.net. Если вам нужны не русскоязычные источники, используйте Yahoo! или Google. Когда возникает потребность в изучении политической, социальной, культурной или иной обстановки, пользуйтесь поиском в новостях, благо, почти все поисковые системы имеют соответствующий раздел.

Для поиска картинок лучше всего использовать так называемые royalty-free фотобанки, многие из которых оснащены адекватным поиском по архивам и при регистрации позволяют пользоваться картинками без «водяных знаков». Например, самый крупный фотобанк Getty Images позволяет искать не только тематические картинки, но и новостные. В принципе, у любой поисковой системы есть свой поиск по картинкам, но, как правило, качество найденных картинок оставляет желать лучшего.

Существует еще одна категория информации, в которой нуждаются многие пользователи — серийные номера и генераторы ключей для различных программных продуктов. О том, насколько это правильно, мы, пожалуй, говорить не будем, но, тем не менее, факт остается фактом — эту информацию ищут часто. Вы наверняка знаете о существовании таких ресурсов, как lomalka.ru. Дело ваше, конечно, но я очень не рекомендую пользоваться ими, поскольку антивирусы очень ругаются. «На вашей машине хочет запуститься какой-то левый скрипт, можно?», — обычно говорят антивирусы.
Если вам неохота лечить свой компьютер впоследствии, покупайте лучше cd или спрашивайте серийные номера у друзей. Это, наверное, один из немногих случаев, когда поисковые системы бессильны — такова уж специфика ресурсов.

Как найти то, что нужно? (Учимся правильно пользоваться поисковиками)

Обратная связь