Облегчить достаточно трудоемкую работу по заполнению индексной базы Google CSE помогает режим автоматического сбора ссылок с указанной веб-страницы. Этот режим, доступный в разделе Сайты панели управления поисковиком, называется динамическим извлечением страниц. Его можно включить как для уже присутствующей в списке веб-страницы, так и для нового добавляемого в систему сайта. После включения этого режима Google CSE просматривает исходную веб-страницу и добавляет в индекс поисковика все сайты, на которые с этой страницы ведут ссылки. Данный режим весьма удобен для сбора новых адресов из разделов полезных ссылок тематических сайтов или, допустим, с обновляемых лент новостей. В результате для того, чтобы ваша персональная база начала пополняться в автоматическом режиме, достаточно включить в область поиска хотя бы один-два сайта с обновляемым тематическим контентом. Необходимо обратить внимание, что такие ссылки не добавляются в индекс в виде самостоятельных записей. В индексе сохраняется только исходная ссылка, поэтому к автоматически собранным сайтам нельзя применять индивидуальную настройку.
Как уже отмечалось, построенный на основе Google CSE поисковик начинает работать сразу же после включения в индекс хотя бы нескольких сайтов. В принципе, работа над персональной системой поиска может быть сведена к пополнению списка сайтов, однако Google CSE предлагает широкий набор дополнительных вариантов настройки и инструментов, с помощью которых можно заметно улучшить работу поисковика.
Пожалуй, первый режим, который стоит включить в новом поисковике, – это режим назначения ярлыков-уточнений. Когда персональный поисковик становится достаточно крупным (несколько сотен сайтов), мы опять сталкиваемся с проблемой «длинного хвоста» результатов, которые, не попадая на первые страницы списка выдачи, оказываются невидимыми для пользователя. Решение этой проблемы – разделение общего индекса поисковика на несколько более узких по теме баз.
Разделив результаты поиска, мы будем получать при каждом запросе только ту информацию, которая требуется в каждый конкретный момент. В то же время это не скажется на широте поиска, поскольку в любое время можно будет перейти к общему поиску без использования тегов. Продуманная система разделов способна значительно повысить удобство работы с персональным поисковиком. Технически это реализуется за счет присваивания сохраняемым ссылкам ярлыков-уточнений. Например, в нашем тестовом поисковике можно выделить раздел. Форумы, в который поместить все выявленные сайты с обсуждениями, раздел. Книги, где собрать ссылки на сайты с литературой по теме, разделы Фото и Видео – для сайтов с мультимедиа-контентом. Одному сайту может быть сопоставлена как одна, так и несколько тематических меток.
Как показывает практика, имеет смысл сразу предусмотреть нейтральный ярлык для сайтов, не подходящих ни под одну из уточненных категорий. Дело в том, что в системе Google CSE нельзя «оптом» отобрать записи, у которых нет ярлыков. Поэтому, если вы придумаете какую-либо новую тематическую категорию, придется вручную перебирать индекс в поиске «свободных» ссылок. Если же сразу отмечать их «нейтральным» ярлыком, то такие ссылки потом можно будет отобрать буквально парой щелчков мышью. Назвать такой ярлык можно просто Сайты.
Ярлыки настраиваются в разделе Уточнения панели управления Google CSE. Система уточнений способна работать в двух режимах, активирующихся при выборе пользователем на странице поисковика определенного тематического раздела Первый режим позволяет включать в результаты поиска только сайты, отмеченные конкретным ярлыком. Второй режим менее радикален: поиск ведется во всей базе, но сайты, отмеченные выбранным ярлыком, выводятся на первые позиции.
Любопытно, что Google ведет собственную единую базу тематических ярлыков, предназначенных для персональных поисковиков. Каждому включенному в такую базу «универсальному» ярлыку сопоставляются наиболее авторитетные и полезные, по мнению Google, веб-ресурсы. Использование базы таких ярлыков, как и многих других дополнительных инструментов Google Custom Search Engine, обеспечивает автоматизацию наполнения персонального поисковика новыми данными. Если мы применим в своем поисковике любой из универсальных ярлыков, то получим возможность автоматически добавить к своему индексу все привязанные к ярлыку тематические веб-ресурсы. Надо признать, что список таких универсальных ярлыков пока несколько эклектичен и не очень велик. Ознакомиться с ним можно по адресу www.google.com/coop/docs/cse/labels.html. Ярлыки разделены на тематические группы, например Автомобили, Компьютеры и игры, при этом каждая группа, в свою очередь, предлагает готовый набор ярлыков.