Читаем Исторические информационные системы: теория и практика полностью

XML-разметка позволяет связывать и семантику текстов. Самый простой уровень – разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями – возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen[30], посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них – даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.

Многие исторические информационные системы объединяют различные по типу источники и используют в структуре разметки более разнообразные сущности, как, например, проект Founders Online[31], посвященный отцам-основателям США и выполненный при сотрудничестве различных архивов, академических учреждений и правительственных организаций Соединенных Штатов Америки. В основе информационной системы проекта ― текстовые исторические источники, размеченные на основе XML. Схема разметки содержит разнообразные элементы, описывающие персоналии, географические объекты разных типов, даты и временные характеристики события и другие элементы. Разметка текстов обеспечивает широкие возможности поиска по коллекции документов, связывая тексты по общности характеристик и упоминаемым элементам (в том числе персоналиям, географическим объектам и т. д.). Однако не все опубликованные источники размечены с одинаковой степенью глубины. Проект является продолжающимся, и в состав системы периодически добавляются новые текстовые источники, обеспечивая работу проекта в режиме work-in-progress. По состоянию на март 2020 г. в информационную систему введено более 183 тыс. документов. Чтобы обеспечить работу со всеми источниками, в том числе и с теми, которые находятся на ранней стадии обработки и аннотирование которых продолжается, было принято решение открыть к ним предварительный доступ (Early Access). Работа с такими документами осуществляется через специально разработанное веб-приложение Document Compass. Архитектура информационной системы Founders Online основана на платформе управления данными MarkLogic, а также использует приложения для индексации и обработки текстового контента, размеченного на основе XML. Поисковая система способна реализовывать многозадачные запросы для получения релевантной выгрузки.

Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative)[32], основная цель функционирования которого – развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.

Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой – при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.

Перейти на страницу:

Похожие книги