Кнопка “искать” - главный
элемент поисковой системы!
Самые
известные поисковые системы,
работающие с русскоязычным
контентом – это Рамблер, Яндекс, Google (Google – крупнейший
мировой поисковик, работающий с
разными языками).
Внешне главные страницы
поисковиков выглядят примерно
одинаково и, если не брать во
внимание дополнительные сервисы,
содержат одни и те же основные
элементы. Они естественны и просты.
Практически любой человек, попав на
первую страницу поисковой системы,
может начать с ней работать.
Основные элементы поисковых
систем это:
- поле поиска, куда
необходимо внести ключевую
фразу, при помощи которой мы
задаем условия поиска
необходимой нам информацию;
- кнопка “искать”, на
которую надо нажать для начала
поиска;
- таблица найденных
результатов, появляющаяся
после того, как поисковая
машина выполнила наш запрос.
Механизм работы поисковиков
Каждая поисковая система – это
комплекс программ.
Основные части программного
комплекса:
- Робот spider (паук).
Автономно работающая
программа, которая перебирает
страницы сайтов, стоящих в
очереди на индексацию. Она
скачивает на диск поискового
сервера содержимое
исследуемых страниц.
- Робот crawler
(“путешествующий” паук).
Его задача - собирать все
ссылки на исследуемой
странице, находить среди них
новые, неизвестные поисковой
системе, и добавлять их в
список ожидающих индексации.
- Индексатор.
Обрабатывает страницы из
очереди на индексацию. Для
этого он оставляет “словарь”
странички, запоминает
“частоту” использования слов.
Особо отмечает ключевые слова,
используемые в заголовках,
выделенные в тексте жирным
шрифтом. Помещает все это в
особый файл - “индекс”.
- База данных. Хранит
ссылки на страницы, словарь
встречаемых на странице слов и
много другой информации,
которая необходима для
формирования результатов
поиска.
- Система обработки
запросов и выдачи результатов.
Принимает запрос пользователя,
формирует запрос к базе данных,
получает оттуда результат и
передает его пользователю.
Поисковые машины не только
находят страницы, но и сообщают о
находках много ценной информации!
За время существования поисковых
машин выработался стандарт выдачи
пользователю страниц результатов
поиска. Разобравшись в форме выдачи
результатов одной поисковой
машины, можно уверенно
пользоваться остальными
поисковиками.
Каждый результат поиска содержит:
- Заголовок найденной
страницы.
- Отрывок из текста страницы,
по которому видно, в каком
окружении (контексте)
используются нужные нам слова.
Искомые слова в нем, как
правило, выделены жирным
шрифтом или отличаются по
цвету от основного текста.
- Полный URL (УРЛ) (“Universal
Resource Locator” - адрес в сети
Интернет) страницы.
- Размер страницы, дата
последнего изменения (если
поисковая машина в состоянии
ее определить).
- Ссылка на копию страницы
в базе поисковой машины. Если
документ был изменен или сайт
временно не работает, то
сохраненная в базе поисковой
машины копия вам все равно дает
возможность ознакомиться с
найденным документом.
- “Похожие документы”.
Некоторые поисковики
анализируют содержание
найденных по запросу страниц и
группируют их по своим,
внутренним критериям. Например
– по близости словарей
страниц, по одинаковым
заголовкам, по совпадениям
фраз, по количеству синонимов.
К сожалению, пока еще данные
алгоритмы далеки от
совершенства и в “похожих
страницах” не очень часто
можно найти нечто, что
действительно поможет в нашем
поиске.
Также, в результатах поиска вы
можете увидеть
- Рубрику каталога или
рейтинга поисковой машины
(если сайт участвует в каталоге
или рейтинге).

На рисунке показаны расположение
всех вышеперечисленных пунктов в
одном из результатов поиска.
Искалась фраза “весеннее
похолодание” поисковой машиной Яндекс.
Чем же различаются поисковые
машины, если у них одинаковая форма
запроса и примерно одинаковый
формат выдачи результатов?
- Релевантностью результатов,
- величиной и частотой
обновления баз данных,
- скоростью выдачи
результатов,
- удобством работы.
На сегодняшний день поисковые
системы - самые популярные страницы
сети на которых пользователи
проводят очень много времени.
Поэтому, все большее значение при
выборе поисковика приобретают сопутствующие
сервисы (почта, новостные
ленты, торговые площадки и т.п.).
Как машина определяет, какие
документы наиболее точно отвечают
на запрос?
Несмотря на то, что каждая поисковая
система имеет свои секреты,
особенные алгоритмы, существуют
несколько общих критериев, которые
учитывают большинство поисковиков
при определении порядка выдачи
результатов (“ключевыми
словами” в перечислении ниже
мы будем называть слова из фразы,
которую ищет пользователь):
- Заголовок.
Присутствует ли запрошенное
слово в заголовке?
- Домен/адрес.
Присутствует ли запрошенное
слово в имени домена или в
адресе страницы?
- Стиль. Страница
считается более релевантной,
если ключевое слово на ней
выделено жирным шрифтом или
курсивом, используется в
подзаголовках.
- Плотность. Количество
ключевых слов относительно
текста страницы называется
плотностью ключевого слова.
- Мета теги (невидимые
пользователю слова,
используемые при описании
страниц). Содержится ли
ключевое слово в них?
- Ссылки на другие сайты.
Встречается ли ключевое
слово в тексте ссылки и на
страницах, на которые ведут
ссылки?
- Ссылки на страницу с других
сайтов. С каких страниц
ссылаются на ваш сайт?
Есть ли на этих страницах ключевые
слова? Кто еще в Интернет
имеет ссылку на данный сайт?
Каков текст ссылки?
- Page Rank сайта. Оценка,
которую выставляют при индексировании
поисковики всему сайту,
исходя из своих внутренних
критериев.
<< назад | оглавление | вперед >>