Проверка индексации каждой страницы сайта. Индексация особенно важна для больших проектов. Если в индекс попадают мусорные страницы (дубликаты, страницы с ошибками, пустые страницы), важные страницы (продвигаемые) получают меньше статического веса. Если в индекс не попадают важные страницы, сайт недополучает трафик. Проверка включает в себя:
составление списка всех важных страниц сайта (выгрузкой из БД, вручную);
составление списка всех страниц сайта (с помощью программы Page-weight или Xenu);
проверку всех ссылок с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа A-Parser);
составление четырех списков:
всех проиндексированных важных страниц;
всех проиндексированных мусорных страниц;
всех непроиндексированных важных страниц;
всех непроиндексированных мусорных страниц.
Составление списка непроиндексированных страниц, посещенных роботом. В некоторых случаях после посещения роботом страница не попадает в индекс. Важно отличать такие страницы от тех, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц различается. Выполните следующие действия:
при помощи анализа логов составьте список страниц, которые посещал робот;
получите списки важных непроиндексированных страниц, не посещенных и посещенных роботом;
изучите список непроиндексированных страниц, которые не посещал робот ПС. На эти страницы необходимо привести робота, чтобы они попали в индекс;
изучите список непроиндексированных страниц, которые посетил робот ПС. Это страницы, которые имеют проблемы с дублями или статическим весом.
Проверка возможности индексации важных областей на Flash– и Ajax-сайтах. При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.
Необходимо по матрице сайта открыть текстовые сохраненные копии страниц всех типов и найти тексты, выложенные с помощью этих технологий. Если текст найти удалось – значит, блок индексируется.
В редких случаях даже при отсутствии Flash и Ajax на сайте может быть настолько «кривая» верстка, что текст не попадет в текстовый индекс.
Проверка возможности индексации всех страниц сайта при текущих инструкциях robots·txt. После корректировки robots.txt необходимо проверить, что все важные страницы доступны для индексации. Проверка осуществляется сервисом http://webmaster.yandex.ru/robots.xml.
Проверка целесообразности использования noindex, nofollow, meta noindex, meta nofollow, SEOHide. Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика. Чтобы выявить эти ошибки, необходимо:
сделать проверку по матрице сайта (сервисы RDS-bar, «СайтРепорт»);
найти незакрытые noindex;
изучить, какие внутренние ссылки закрыты в nofollow;
изучить, какие внешние ссылки закрыты в nofollow;
изучить, какие страницы закрыты в meta noindex;
изучить, какие страницы закрыты в meta nofollow;
изучить, есть ли на сайте SEOHide и корректно ли он внедрен.
Проверка корректности использования noindex, nofollow, SEOHide. После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:
незакрытый noindex;
индексируемый SEOHide;
проверка корректности SEOHide с помощью плагина WebDeveloper;
важные страницы с meta nofollow, meta noindex;
nofollow на внутренних ссылках.
Поиск ошибок (сравнение индексов по категориям и типам страниц). Необходимо подробно изучить сайт на предмет наличия ошибок. Один из способов сделать это – сравнение списков проиндексированных в разных поисковых системах страниц по тем разделам и типам страниц, где их количество в индексе различается.
Изучаются области сайта, где в одной ПС страниц меньше, чем в другой (табл. 10.1).
Страницы из списка проиндексированных открываются и изучаются.
Изучаются те страницы, которые отсутствуют в индексе одной ПС, но есть в индексе другой.
Изучаются страницы, помеченные в Google как supplemental.
Таблица 10.1. Сравнение индексов
Поиск в индексе технических страниц. Далее приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а также некоторые варианты идентификации их через оператор inurl:
файлы статистики – /*_openstat;
страницы контекстной рекламы или меток – /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=;
корзина – /cart/, /order/;