Читаем Как раскрутить и разрекламировать Web-сайт в сети Интернет полностью

5. Нажмите на кнопку OK.

Для проверки правописания во встроенном редакторе выделите необходимый фрагмент текста и выполните команду Tools Spell Check (Инструменты → Проверка правописания). Если требуется проверить весь текст, пригодна операция Tools Spell Check All (Инструменты → Проверка правописания во всем).

Чтобы контролировать правописание страниц не только в редакторе, но и в процессе сканирования, выполните команду Options Validator Engine Options (Опции → Опции системы проверки). Откроется окно Validator Engine Options. Перейдите в нем на вкладку Validator 1 (рис. 2.183) и отметьте флажок Enable spell checking (Разрешить проверку правописания). Теперь по мере сканирования HTML-документов программа будет генерировать список слов с ошибками.

Рис. 2.183. Окно Dictionaries , вкладка Validator 1

<p>Глава 3 Работа с поисковыми системами и каталогами</p><p>Обзор поисковых систем</p>

Российские поисковые системы

Яndex

Поисковая машина Яndex (http://www.yandex.ru/) обладает наибольшей в российской части Internet базой данных и развернутой системой формирования запроса. Ею индексируется информация российских (домены RU и SU) и зарубежных серверов, имеющих в своем составе страницы, написанные на русском языке.

Дата официального открытия Яndex – 23 сентября 1997 года. Идея, разработка и техническое обеспечение проекта принадлежат компании с одноименным названием.

Яndex – это полнотекстовая информационно-поисковая система, учитывающая морфологию русского языка. Таким образом, в индекс попадают все слова, найденные на Web-странице, за исключением самых частотных слов русского и английского языков (стоп-слов). Все лексические единицы, попавшие в индекс, доступны для поиска. Адресом слова в Яndex являются документ (точнее, его URL-адрес), номер предложения и номер слова внутри предложения. Кроме страниц сайтов, поиск идет по новостям информационных агентств и по товарам электронных магазинов.

Обнаружив новую или измененную страницу, Яndex ее индексирует. В этом случае страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и т. д.), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яndex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит перенаправление (например, с помощью метатэга HTTP– EQUIV="Refresh"), робот воспримет его как ссылку на новый адрес и поставит ее в очередь на индексирование. То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница не будет проиндексирована. Робот Яndex хранит дату последнего обхода каждой страницы, дату ее изменения, присланную Web-сервером, и информацию о времени внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые серверы.

Яndex индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Робот работает со стандартными ссылками языка HTML (HREF, LINK и FRAME), то есть так, как работал бы пользователь с отключенными Java и JavaScript.

Поиск учитывает все морфологические формы слов запроса по правилам русского языка. Например, при запросе «идти» в результате поиска будут найдены ссылки на документы, содержащие слова: «идти», «идет», «шел», «шла» и т. д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» – документы со словом «отозвали». Таким образом, можно подавать запрос на естественном языке, представляя область поиска лишь в общем виде.

При этом поиск не ограничен только словами или фразами. Яndex отыщет по названию Web-страницу компании или файл с нужной картинкой.

Перейти на страницу:

Похожие книги