Google

Индексация сайта

Как проверить индексацию сайта

Полный курс

Статьи

Компоненты пакета

В начало
Содержание
Глава 15. Индексация сайта.
15.1 Управление индексацией сайта.
15.2 Что делать, если сайт не индексируется.

Индексация сайта в Яндексе и Гугле

Строго говоря, если у вас нормальный сайт, то проблем с его индексацией не возникнет. Если ваш ресурс хотя бы приблизительно соответствует понятию «сайт для людей», то поисковые системы скушают его на ура.

Тем не менее, раскрутка и продвижение сайта начинаются именно с попадания ресурса в индекс. Пока сайт не проиндексирован – поисковая система вообще ничего о нем не знает, так что продвигать-то и нечего.

Поэтому здесь мы расскажем как поверить индексацию сайта в Яндексе и в Гугле, а также какие бывают проблемы и технические способы их решения.


Robots.txt. Это такой хитрый файл, который лежит в корневом каталоге сайта и указывает поисковым системам страницы, которые НЕЛЬЗЯ индексировать.

На первый взгляд может показаться странным – а зачем нам запрещать индексацию материалов на своем сайте? Оказывается – есть зачем.

Поисковые системы не любят дубли – т.е. страницы, с одинаковым содержанием. Классический пример дубля – версия страницы «для печати». Содержание идентичное, чуть-чуть разное оформление.

Это может вести к разным проблемам. Вас могут посчитать спамером. Или Яндекс в силу ошибки алгоритма решит, что «для печати» - это основная страница. А поскольку ссылок на себя она практически не имеет и «поведенческие» ее будут сильно хуже – она улетит вниз по своим запросам. А главная, правильная версия документа, который мог бы иметь высокие позиции, вообще не будет включена в индекс.

Другим примером может быть организация поиска на сайте. Поисковый скрипт – это динамическая страница, которая формируется в зависимости от запроса. По сути «поиск» может генерировать бесконечное число вариаций страницы, а поисковые системы будут их индексировать и думать про себя: «хрень какая-то, а не полезный ресурс. Миллион страниц с похожим содержанием».

Так вот все такие дубли нужно закрывать от индексации в robots.txt, дабы упростить поисковым роботам жизнь. Также системы управления сайтом – CMS – создают тонны технических страниц, которые показывать поисковикам не нужно. Но здесь нам проще - с любой CMS уже идет в комплекте robots.txt, заточенный именно под эту систему.

Синтаксисом записей в robots.txt я вас грузить не буду – он предельно простой и информацию по нему вы найдете в сети без проблем.

Мета-тег noindex. Запись вот такого вида

meta name="robots" content="noindex"/

вставленная в заголовок html страницы выполняет ту же роль, что и запись в robotst.txt. В некоторых случаях это бывает удобнее. Обычно в роботсе прописывают группы УРЛ запрещенных к индексации, чтобы закрыть сразу целый раздел. Если же вдруг нужно запретить отдельную страничку – то этот мета-тег может оказаться удобнее.

Атрибут rel=canonical. Если у вас на сайте есть несколько очень схожих страниц, то данный атрибут позволяет прописать среди них главную, чтобы робот не ломал себе голову в процессе индексации, какая из похожих страниц является более полезной.

Запись выглядит вот так:

link rel="canonical" href="http://www.site.ru/mainversion.html"/

Вообще говоря, я не постиг всей глубины глубин данного мета-тега. Если на сайте есть дубли страниц, то лучше их просто закрыть от индексации в robots.txt. Но видимо в каких-то ситуациях это нужно, т.к. и Гугл и Яндекс учитывают этот атрибут и даже дают рекомендации по его использованию в своих мануалах для вебмастеров.

Html тег noindex. Обратите внимание, описанный выше мета-тег с аналогичным названием закрывает от индексации всю страницу целиком. А вот html-тег работает как и обычный тег – т.е. может применяться к кускам текста.

Таким образом, вы можете закрывать от индексации конкретные абзацы и части страницы. В некоторых случаях это очень удобная и полезная возможность.

Например, у вас в середине страницы вставлен большой кусок Java-скрипта. Поисковые системы умеют распознавать скрипты, но чтобы роботу сразу было понятно – можно заключить его в тег noindex.

Или другой пример. Интернет-магазин, в котором рядом товаром приводится информация о способах оплаты и доставки. Получается, что под каждый товар есть пара абзацев уникального текста с описанием объемом 500 знаков, и одинаковый из страницы в страницу текст об оплате/доставке, объемом 1500 знаков. Выглядит это так, как будто на сайте куча «нечетких дублей» - почти одинаковых страниц. А удалять информацию не хочется – для пользователей она очень удобна и полезна.

Опять таки, поисковые системы умеют выделять повторяющиеся фрагменты текста и отделять их от главного содержания страницы. Но это в первую очередь касается навигационных меню. Поэтому закрытие в noindex неуникальной части страницы здорово упрощает процесс индексации сайта Яндексом.

Почему только Яндексом, спросите вы? Потому что данный тег, к сожалению, поддерживает только он. Гугл его проигнорирует, даже если и встретит на странице.

Как проверить индексацию сайта

Первый и главный вопрос – а зачем ее вообще проверять? :-) Если проблем с сайтом нет, то и копаться там в большинстве случаев нечего.

Я индексацию своих сайтов активно изучаю только на этапе запуска. Когда сайт начал полноценно работать – то что-либо проверять уже не требуется. Страницы сидят в индексе и нужно работать над их продвижением.

Проверить индексацию сайта можно несколькими способами. Операторы site:domain.ru в Гугле и url:domain.ru в Яндексе позволят получить список проиндексированных страниц прямо в обычных результатах выдачи.

Тут правда имеется серьезное ограничение – можно получить не более 1000 результатов. А в большинстве случаев проверять индексацию требуется именно для больших ресурсов. Сайт в 10 страничек и так будет проиндексирован без проблем.

Поэтому вторая возможность – это зайти в панель Яндекс.Вебмастер. И там можно более полную информацию получить. Для Гугла к сожалению аналогичной возможности я не знаю.

Ну и еще один инструмент – Semonitor. Данные он берет те же самые (операторы url: и site: и инструменты вебмастера), но позволяет более удобно с ними работать.


А также позволяет в динамике смотреть, какие страницы из индекса пропали, а какие добавились (сравнивая данные об индексации сайта за разные даты). Это, пожалуй, наиболее ценная информация, более важная, чем собственно список проиндексированных документов. Если страниц в индексе мало, но их число от раза к разу растет – все ОК. Если много, но они наоборот из индекса пропадают – нужно бить тревогу.

Подводя итог, еще раз скажу: для большинства сайтов проблемы индексации не существует. Поисковые системы прекрасно справляются с задачей без подсказок с нашей стороны. Но если вдруг вам потребуется более гибкое управление поведением поисковых роботов на сайте, то вся необходимая информация у вас уже есть.

В следующей статье мы разберем, что делать в случае, если сайт не индексируется Яндексом или Гуглом. Бывают и такие ситуации, вопреки всему, что я утверждал в этой главе.


Моя книга издана в бумажном варианте. Если этот учебник оказался для вас полезным - то вы можете отблагодарить меня не только морально, но и вполне осязаемо.
Для этого нужно перейти на Озон.Ру или Лабиринт.Ру и выставить книге оценку или написать отзыв.
Для вас это бесплатно (всегда приятно сделать что-то хорошее без лишних затрат :-)), а для нас очень важно, т.к. поможет нам поднятся в рейтингах. Надесюь на вашу поддержку!

А вот купить книгу - дешевле всего непосредственно на сайте издательства Инфра-Инженерия




Читать далее >>


Если мой труд заслуживает "спасибо", то буду рад вашим "лайкам" и "гуглоплюсам"!





 

Semonitor (R) - программы для раскрутки и продвижения сайта