Читаем Как раскрутить и разрекламировать Web-сайт в сети Интернет полностью

Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.

Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.

На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.

# robots.txt for http://www.mysite.ru

User-agent: *

Disallow: /cgi-bin/maillist/

Disallow: /tmp/

Disallow: /product1.html

User-agent: aport

User-agent: scooter

Disallow:

Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:

User-agent: * # Применяется ко всем роботам. Disallow: / # Запретить индексацию всех страниц.

Перейти на страницу:

Похожие книги