Читаем Профессиональный поиск в Интернете полностью

Индексация по косвенным признакам остается наиболее популярным способом поиска изображений. Этот способ широко представлен в вертикальных базах изображений универсальных интернет-поисковиков, благо практически все крупные машины предлагают такие возможности поиска. В данном варианте интернет-поиск изображений концептуально не отличается от поиска веб-страниц и других текстовых документов. Поисковик при индексации работает не с самим изображением, а с его косвенными признаками: именами графических файлов и тегами, присвоенными в HTML-разметке. Кроме того, анализируются подписи и текст, расположенный рядом с изображением на веб-странице, изучается текст гиперссылок, ведущих к той или иной картинке. Именно такие косвенные признаки изображения и заносятся в индексную базу, по которой затем ведется поиск при поступлении запросов от пользователей.

Подобные поисковики принимают запрос от пользователя в виде привычной текстовой строки, содержащей ключевые слова. Как правило, к характеристикам собственно изображений относятся только поля расширенного поиска, определяющие формат файла, размер изображения и другие подобные признаки.

Преимущества такого подхода понятны: его относительно проще реализовать. Кроме того, задействуются огромные индексные базы, что обеспечивает хороший охват поиска. Недостатки также очевидны: поскольку поиск идет по косвенным признакам, причем исключительно в автоматическом режиме, неизбежны информационный шум и ошибки.

Избавиться от неточностей и шума, свойственных автоматическому индексированию по косвенным признакам, можно несколькими способами. Один из них – включить в работу системы человека. Подробное описание картинок по заданной заранее схеме обычно имеет место в тематических галереях изображений. Перед включением изображения в базу данных на него заполняется своеобразная анкета, в которой содержится заранее отобранный список важных для поиска признаков и характеристик изображения. Такой способ позволяет качественно обработать как формальные свойства изображения, так и отразить его тематику. Благодаря четкой структуре описания обеспечивается достаточно высокая точность поиска. Если вам повезет найти по интересующей вас теме подобную специализированную галерею, эффективность поиска изображений вырастет в разы по сравнению с обычным универсальным поиском.

Не стоит забывать и про специализированные фотобанки. Профиль таких ресурсов может быть самым разным: от коллекций «обоев» для рабочего стола до коммерческих баз высококачественных фото, которые можно применять в полиграфии. Как правило, там используются стандартные режимы поиска, кроме того, для работы с такими базами существуют специальные поисковики.

Один из главных недостатков такой «каталожной» технологии – серьезные трудозатраты на описание ресурсов. Эпоха Web 2.0 дала новый толчок развитию данной модели. На социальных проектах задача описания загружаемых на сервер изображений полностью возлагается на их авторов. Кроме того, схема самого описания радикально упрощается. Вместо заполнения развернутой, но сложной анкеты предлагается схема свободного присваивания картинкам простых тегов. На некоторых ресурсах добавлять теги к изображениям могут не только их владельцы, но и другие пользователи сервиса Примерами ресурсов, где практикуется такой подход (его еще называют «фолксономией») при индексации изображений, могут служить Flickr, Photobucket и огромное количество других социальных фотохостингов.

Социальное индексирование изображений – способ хороший, однако не лишенный недостатков. Если в случае автоматического индексирования мы зависим от алгоритмов универсального поисковика, то здесь мы вынуждены полагаться на мастерство и добросовестность авторов. А индексаторская квалификация у владельцев картинок разная. У кого-то получается лучше, у кого-то хуже. Не надо забывать, что для описания близких по содержанию картинок разные авторы могут использовать различные ключевые слова. Кроме того, совершенно не факт, что автор картинки посчитает достойными индексирования именно интересные вам признаки. Свою роль может сыграть и фактор времени. Хорошо если человек загружает за один сеанс несколько фотографий – можно спокойно подумать над хорошим подбором тегов. А если таких снимков сотня? Скорее всего, всякий нормальный человек сэкономит время, в результате чего вся подборка будет описана всего несколькими общими тегами, и только некоторые фото удостоятся подробного описания. Такое сокращение поисковых признаков неизбежно сказывается на качестве будущего поиска.

Третья «генеральная» технология поиска, так называемая технология CBIR (Content Based Image Retrieval – поиск изображений по содержанию), делает ставку на системы автоматического распознавания изображений, которые работают напрямую с картинкой и индексируют такие ее параметры, как цвет, очертания изображенных объектов, их взаимное расположение.

Перейти на страницу:

Похожие книги

1001 совет по обустройству компьютера
1001 совет по обустройству компьютера

В книге собраны и обобщены советы по решению различных проблем, которые рано или поздно возникают при эксплуатации как экономичных нетбуков, так и современных настольных моделей. Все приведенные рецепты опробованы на практике и разбиты по темам: аппаратные средства персональных компьютеров, компьютерные сети и подключение к Интернету, установка, настройка и ремонт ОС Windows, работа в Интернете, защита от вирусов. Рассмотрены не только готовые решения внезапно возникающих проблем, но и ответы на многие вопросы, которые возникают еще до покупки компьютера. Приведен необходимый минимум технических сведений, позволяющий принять осознанное решение.Компакт-диск прилагается только к печатному изданию книги.

Юрий Всеволодович Ревич

Программирование, программы, базы данных / Интернет / Компьютерное «железо» / ОС и Сети / Программное обеспечение / Книги по IT
Wi-Fi: Все, что Вы хотели знать, но боялись спросить
Wi-Fi: Все, что Вы хотели знать, но боялись спросить

Жизнь современного человека — это движение. Мобильность для нас становится одним из самых важных моментов для работы, для общения, для жизни. Многие из нас сейчас уже не представляют жизнь без сотовых телефонов, которые из средства роскоши превратились в предмет, без которого жизнь современного человека стала просто немыслима. Многие уже оценили все преимущества Bluetooth, GPRS. Эти устройства превратили наши телефоны из средств связи в незаменимых помощников в работе. К сожалению, один из самых главных недостатков этих беспроводных технологий — малый радиус действия и низкая скорость передачи данных, что сейчас становится очень важным фактором для всех нас. Поэтому к нам на помощь приходит активно развивающийся во всем мире и в России стандарт Wi-Fi. Особенно радует, что в крупных городах России, особенно в Москве и Санкт-Петербурге, начинается массовое внедрение беспроводных сетей Wi-Fi в публичных местах (так называемых Hot Spot) — отелях, аэропортах, ресторанах, торговых центрах и кафе.Что же такое Wi-Fi? Очередной мыльный пузырь IT-индустрии, который изо всех сил надувают производители и поставщики телекоммуникационного оборудования или новая технология, призванная в очередной раз изменить наш привычный мир, как это случилось когда-то с появлением Интернет и сотовой связи?

А К Щербаков , А. К. Щербаков

Компьютерное 'железо' (аппаратное обеспечение), цифровая обработка сигналов / Интернет / Компьютерное «железо» / Книги по IT