Читаем Профессиональный поиск в Интернете полностью

Постепенный рост объема данных в семантических форматах выявил потребность в своеобразных «точках доступа» – сервисах, аккумулирующих сведения о свободно доступных данных в семантических форматах, к которым могли бы обращаться как приложения-агенты, так и пользователи-люди. В «обычном» вебе эту роль играют поисковые системы и каталоги. Аналогичным путем пошла эволюция и в современном семантическом вебе. Такие поисковые системы иногда даже называют «семантическими приложениями второго поколения». Этим подчеркивается значительное улучшение удобства работы с информацией в новых форматах, в том числе для широких кругов пользователей. Данная глава посвящена лучшим и наиболее показательным представителям семейства поисковиков для семантического веба.

Требования к представленным в этой главе поисковым машинам были следующие. Все предлагаемые сервисы должны быть общедоступными. Поисковики обязательно должны были уметь работать с документами в основных форматах семантического веба. Поскольку такие ресурсы претендуют на роль универсальных точек доступа к семантическим данным, поисковики должны обладать удобным пользовательским интерфейсом, предназначенным для пользователя-человека, а также предусматривать возможность подключения к поисковику внешних приложений – программ-агентов, ориентированных на автоматические сбор и систематизацию данных.

Семантическая разметка веб-документов предлагает широкие возможности по составлению сложных запросов, во многом отличающиеся от привычных опций «обычных» интернет-поисковиков. Эффективные поисковики должны обладать соответствующими инструментами составления сложных запросов, а также различными вспомогательными средствами последующего уточнения запросов и фильтрации результатов.

<p>Swoogle</p>

Ведущие роли в разработке инструментов для поиска в семантической сети играют исследовательские проекты различных научных и учебных заведений. Сейчас это настоящие локомотивы семантического веба. Выбор и возможности академических проектов пока заметно превосходят общедоступные предложения коммерческих разработчиков. Обзор поисковиков для Web 3 0 начнем рассказом о сервисе Swoogle, разработанном специалистами университета. Мэриленда (США).

Swoogle индексирует документы в форматах N-Triples, RDF/XML и N3 (RDF). Обрабатываются как полностью составленные с помощью этих языков документы, так и «обычные» веб-страницы, содержащие фрагменты семантического кода. Индексная база у Swoogle собственная, построенная на информации из открытых сетевых источников, и на сегодняшний день содержит сведения примерно о трех миллионах документов, о миллиарде отдельных высказываний-триплетов, а также десяти тысячах онтологий. Это достаточно серьезные цифры.

Воспользоваться поисковиком может любой желающий. На сервисе предусмотрена бесплатная регистрация. Без регистрации по запросу демонстрируется только первая сотня результатов. По всей видимости, это призвано несколько снизить нагрузку на серверы проекта, поскольку основное преимущество обладателей аккаунта – получение именно полных результатов поиска. Это немаловажно, поскольку Swoogle поддерживает подключение программ-агентов. Данные им выдаются в формате RDF.

Предназначенный для просмотра человеком интерфейс Swoogle весьма прост и лишен каких-либо излишеств. Доступно несколько специфических режимов поиска. Наиболее строгим является режим Ontology. При поиске в этом режиме в результаты попадают только документы, содержащие определения свойств семантических объектов. Пожалуй, наиболее удобным при личном обращении пользователя к ресурсу является режим Document, в котором поиск ведется среди всех проиндексированных документов. Третий режим – Term – предлагает поиск отдельных триплетов. Он выдает максимальное количество результатов, однако удобен скорее для машинной обработки. Swoogle обладает собственным языком составления сложных запросов, который состоит из собственных операторов, а также поддерживает синтаксис запросов Apache Lucene. Перечень операторов Swoogle можно найти в приложении А. По умолчанию поисковый оператор и его значение разделяются двоеточием. Поддерживается поиск по фразе с использованием кавычек.

Страница выдачи Swoogle максимально проста (рис. 10.1). В списке предоставляются только ссылки на ресурсы и краткие комментарии. Каких-либо дополнительных инструментов просмотра или фильтров не предусмотрено. Компенсацией может служить достаточно высокая скорость работы сервиса.

Рис. 10.1. Страница выдачи поисковой системы Swoogle

<p>VisiNav</p>

VisiNav – это еще один университетский проект поиска в семантическом вебе. У данного сервиса ирландские корни. Принадлежит он институту Digital Enterprise Research Institute (DERI). Размер индексной базы заявлен в объеме примерно двух миллионов документов и тринадцати с половиной миллионов высказываний-триплетов. Собирается база собственными роботами VisiNav. Главный недостаток VisiNav – редкое обновление базы.

Перейти на страницу:

Похожие книги

1001 совет по обустройству компьютера
1001 совет по обустройству компьютера

В книге собраны и обобщены советы по решению различных проблем, которые рано или поздно возникают при эксплуатации как экономичных нетбуков, так и современных настольных моделей. Все приведенные рецепты опробованы на практике и разбиты по темам: аппаратные средства персональных компьютеров, компьютерные сети и подключение к Интернету, установка, настройка и ремонт ОС Windows, работа в Интернете, защита от вирусов. Рассмотрены не только готовые решения внезапно возникающих проблем, но и ответы на многие вопросы, которые возникают еще до покупки компьютера. Приведен необходимый минимум технических сведений, позволяющий принять осознанное решение.Компакт-диск прилагается только к печатному изданию книги.

Юрий Всеволодович Ревич

Программирование, программы, базы данных / Интернет / Компьютерное «железо» / ОС и Сети / Программное обеспечение / Книги по IT
Wi-Fi: Все, что Вы хотели знать, но боялись спросить
Wi-Fi: Все, что Вы хотели знать, но боялись спросить

Жизнь современного человека — это движение. Мобильность для нас становится одним из самых важных моментов для работы, для общения, для жизни. Многие из нас сейчас уже не представляют жизнь без сотовых телефонов, которые из средства роскоши превратились в предмет, без которого жизнь современного человека стала просто немыслима. Многие уже оценили все преимущества Bluetooth, GPRS. Эти устройства превратили наши телефоны из средств связи в незаменимых помощников в работе. К сожалению, один из самых главных недостатков этих беспроводных технологий — малый радиус действия и низкая скорость передачи данных, что сейчас становится очень важным фактором для всех нас. Поэтому к нам на помощь приходит активно развивающийся во всем мире и в России стандарт Wi-Fi. Особенно радует, что в крупных городах России, особенно в Москве и Санкт-Петербурге, начинается массовое внедрение беспроводных сетей Wi-Fi в публичных местах (так называемых Hot Spot) — отелях, аэропортах, ресторанах, торговых центрах и кафе.Что же такое Wi-Fi? Очередной мыльный пузырь IT-индустрии, который изо всех сил надувают производители и поставщики телекоммуникационного оборудования или новая технология, призванная в очередной раз изменить наш привычный мир, как это случилось когда-то с появлением Интернет и сотовой связи?

А К Щербаков , А. К. Щербаков

Компьютерное 'железо' (аппаратное обеспечение), цифровая обработка сигналов / Интернет / Компьютерное «железо» / Книги по IT