XML-разметка позволяет связывать и семантику текстов. Самый простой уровень – разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями – возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen[30], посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них – даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.
Многие исторические информационные системы объединяют различные по типу источники и используют в структуре разметки более разнообразные сущности, как, например, проект Founders Online[31], посвященный отцам-основателям США и выполненный при сотрудничестве различных архивов, академических учреждений и правительственных организаций Соединенных Штатов Америки. В основе информационной системы проекта ― текстовые исторические источники, размеченные на основе XML. Схема разметки содержит разнообразные элементы, описывающие персоналии, географические объекты разных типов, даты и временные характеристики события и другие элементы. Разметка текстов обеспечивает широкие возможности поиска по коллекции документов, связывая тексты по общности характеристик и упоминаемым элементам (в том числе персоналиям, географическим объектам и т. д.). Однако не все опубликованные источники размечены с одинаковой степенью глубины. Проект является продолжающимся, и в состав системы периодически добавляются новые текстовые источники, обеспечивая работу проекта в режиме
Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative)[32], основная цель функционирования которого – развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.
Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой – при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии