Google

Принципы работы поисковых машин

База данных, индекс, робот и прочие термины

Полный курс

Статьи

Компоненты пакета

В начало
Содержание
Глава 2. Техническая сторона продвижения.
2.1 История развития поисковых систем и их текущая популярность.
2.2 Как устроены поисковые системы.
2.3 Коротко о факторах ранжирования.
2.4 Апдейты Яндекса и Гугла.
2.5 Домен и хостинг. Техническая оптимизация сайта.
2.6 С www или без?
2.7 Возраст сайта.
2.8 Поддомены и сео.
2.9 Дизайн сайта. Выбор CMS.
2.10 Юзабилити или удобство использования.

Принципы работы поисковых систем

Нам нет нужды подробно вникать в технические детали функционирования поисковых машин, но знание базовых принципов несомненно пригодится.

На физическом уровне поисковые системы представляют собой сеть из сотен тысяч и даже миллионов серверов, в буквальном смысле слова хранящих в себе копию всего Интернета. Посмотрим, как это работает.


Поисковый робот. Первым важным компонентом поисковой машины является поисковый или индексирующий робот. На самом деле этот робот и сам состоит из десятка других компонентов, но для простоты мы будем рассматривать его как единое целое. Итак, индексирующий робот:

- скачивает страницы из Интернета, так же, как это делает наш браузер
- после скачивания проводит первоначальный анализ – содержит ли эта страница какую-то осмысленную информацию и нужно ли поместить ее в базу данных поисковика (иначе называемому «индексом»)
- если страница полезная, то следует более подробный анализ. Страница разбирается на составные элементы: текст, html код, ссылки, изображения и т.п. и затем помещается в индекс.

Индекс поисковой системы. Чтобы понять, как это устроено, давайте обратимся к примеру из жизни. Возьмем какую-нибудь умную книжку, например справочник по астрономии. В книге, конечно, есть оглавление – но его бывает недостаточно, если нам нужно быстро найти какую-то конкретную информацию.

Поэтому в конце всегда приводится индексный указатель. Хотим мы найти все упоминания планеты Сатурн – открываем индекс и видим: Сатурн упоминается в 10 статьях, на страницах 5, 27, 193 и т.д.

Индекс поисковой системы работает по тому же принципу – для каждого слова есть список документов, его содержащих. Только в отличии от книжного указателя, индекс поисковой системы гораздо более полный и содержит не только номера документов, но и много дополнительной информации (как часто слово встречалось на странице, какими тегами было выделено и т.д.).

Поступил к Яндексу запрос «планета Сатурн» и с помощью индекса поисковая система в считанные секунды нашла список страниц, содержащих слово «планета», а затем выбрала из них те, которые содержат слово «Сатурн». Вот и получился первоначальный вариант поисковой выдачи.

Вы никогда не задумывались, почему поиск нужного документа только лишь на вашем компьютере может занимать несколько минут, а поиск «по всему Интернету» - доли секунды? А вот вам и ответ – у поисковой системы все данные уже подготовлены для поиска по ним. 99% всей работы сделано еще до получения запроса от пользователя - список слов и документов подготовлен заранее. А уж искать с помощью готового индекса в миллионы раз быстрее, чем просмотром информации «в лоб».

Алгоритмы выдачи результатов. После того, как первоначальный список результатов получен, в дело вступают алгоритмы ранжирования. Ведь из миллиона найденных страниц нужно выбрать 1000, наиболее полно отвечающих на вопрос. Для отбора этой тысячи используются множество различных факторов – текст страницы, ссылки на эту страницу, поведение пользователей и т.д. На основе этих данных и формируется та 1000 результатов, которые мы можем увидеть в своем браузере.

Матрикснет и финальное ранжирование. Итак, у нас есть список документов, которые лучше всего отвечают на заданный запрос. Теперь нужно их отсортировать по качеству – ведь у пользователя нет возможности рыться во всей тысячи.

На этом этапе в дело вступает Матрикснет, о котором мы говорили ранее. Именно этот алгоритм сортирует полученные результаты и формирует окончательный вариант выдачи, которую мы увидим в нашем браузере.


Моя книга издана в бумажном варианте. Если этот учебник оказался для вас полезным - то вы можете отблагодарить меня не только морально, но и вполне осязаемо.
Для этого нужно перейти на Озон.Ру или Лабиринт.Ру и выставить книге оценку или написать отзыв.
Для вас это бесплатно (всегда приятно сделать что-то хорошее без лишних затрат :-)), а для нас очень важно, т.к. поможет нам поднятся в рейтингах. Надесюь на вашу поддержку!

А вот купить книгу - дешевле всего непосредственно на сайте издательства Инфра-Инженерия




Читать далее >>


Если мой труд заслуживает "спасибо", то буду рад вашим "лайкам" и "гуглоплюсам"!





 

Semonitor (R) - программы для раскрутки и продвижения сайта