страницы сортировки – /*sort, asc, desc, list=*;
страницы поиска – /search/;
страницы авторизации – /auth/;
версия для печати – /*printable, /print;
напоминание пароля – /remind_password/;
регистрация – /register/;
административный раздел – /administrator/;
кэш страниц – /cache/;
модули, подгружаемые на страницы, – /components/, /plugins/;
файлы инсталяции CMS – /installation/, /installer/;
логи – /logs/;
файлы – /files/;
скрипты, таблицы стилей – /ajax/, /java/, /ess/;
аккаунты пользователей – /user/ и др.
Анализ динамики индексации сайта. Динамика индексации сайта может указать на слабые места и проблемы проекта.
Статистика по списку проиндексированных страниц, собранных с параметром how=tm, позволяет узнать возраст страниц и изучить динамику индексации сайта.
Проверка robots.txt на ошибки. Из-за ошибки в robots.txt весь сайт может быть исключен из индекса. Чтобы избежать этого, следует:
с помощью сервисапроверить, закрывает ли robots.txt все ненужные страницы и не находит ли валидатор ошибок;
проверить соответствие robots.txt правилам http://help.yandex.ru/webmaster/?id=996567.
Проверка robots.txt на наличие директив для всех поисковых систем. «Яндекс» и Google используют различные директивы в robots.txt, и инструкции для них следует писать разные. В robots.txt писать User-Agent: «Яндекс» + User-Agent: * обязательно, опционально писать еще User-Agent: Google.
Проверка sitemap.xml на ошибки. С помощью sitemap.xml можно управлять индексацией своего сайта. Для того чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки. Нужно проверить следующее:
ссылка на sitemap.xml должна быть в robots.txt;
атрибуты дат страниц расставлены корректно;
приоритеты расставлены правильно;
исключены уже проиндексированные страницы;
нет страниц, закрытых от индексации в robots.txt;
нет нарушений валидности составления sitemap.xml (сервис.
Дополнительная информация о sitemap.xml – на http://www.sitemaps.org/ru/faq.html#faq_xml_schema.
Дублирование, аффилиаты, ошибки
Анализ содержания поддоменов. На поддоменах может располагаться что угодно: копия сайта, спамный контент, вирусы. Например, на поддомене может располагаться архивная версия форума, которая уже не работает и поэтому не обновляется. Используя найденные ошибки в движке форума, которые не были исправлены, спамботы могут оставить на страницах форума ссылки на спамные ресурсы. Необходимо внимательно изучить содержание поддоменов до начала продвижения сайта.
Запрос к «Яндексу» вида rhost:ru.site* дает нам список страниц, расположенных на поддомене.
Получив список поддоменов, следует изучить их содержание через site:1.site.ru. Предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента.
Поиск дублирующих страниц. Необходимо найти все возможные дубли страниц сайта и перенастроить сервер таким образом, чтобы только одна страница главного зеркала была индексируемой. Порядок поиска:
сравнение по шинглам (сервис «СайтРепорт»);
сравнение Title (сервис «СайтРепорт», WebMaster Google, оператор intitle: в «Яндексе»);
проверка на наличие дублей:
www.site.ru и site.ru;
http:// и https://;
dir и dir/;
/ и /index.php;
/cat/dir/ и /dir/cat/;
/cat/dir/id/ и /cat/id/;
panasonic/tv/ и param_1=12param_2=44;
param_1=12param_2=44 и /cat_12/dir_44/;
site.ru и test.site.ru;
test.site.ru и site.ru/test/;
/bedroom/divan_roza.html и /guestroom/divan_roza.html;
/?red_id=3342;
/session_id=442424424022492.
Поиск дублирующего контента. На сайте могут присутствовать частичные дубли. Такие страницы не только соревнуются между собой в релевантности по ключевым словам дублированного блока, но и могут терять релевантность по продвигаемым запросам за счет размывания текста. Способы решения проблемы:
сравнение по шинглам (сервис «СайтРепорт»);
ручной осмотр разных страниц сайта по матрице.
Поиск пустых страниц. На некоторых сайтах можно найти страницы с пустыми Title. При таком раскладе продвигаемые страницы теряют в релевантности, потому что содержимое Title имеет значительное влияние на ранжирование страницы. Нужно выполнить проверку:
по Title (сервис «СайтРепорт»);
по количеству контента и размеру страницы (часто пустые страницы и страницы с ошибками имеют проблемы в Title).
Поиск страниц с ошибками. Из-за ошибок CMS, базы данных, кодировки, верстки, скриптов и др. некоторые страницы могут отображаться с ошибками. Выполняется поиск:
вручную при сравнении индексов;
через поиск в тексте ключевых слов admin, SQL и т. п.;
с помощью анализа ошибок в логах;
с помощью анализа страниц с высоким процентом отказов.