На сайте консорциума TEI доступен список проектов, выполненных с помощью разметки по стандарту TEI[33]. Значительная доля этих проектов является историко-ориентированными ресурсами. Среди них, например, проект Menota (Medieval Nordic Text Archive), посвященный норвежским рукописям[34]; CELT Project: TheCorpus of Electronic Texts[35]; Chronicling America, связанный с американскими газетами 1836–1922 гг.[36], и др.
В рамках инициативы TEI развиваются также и специализированные стандарты, связанные с описанием исторических источников одного типа. Таким стандартом является TheCharters Encoding Initiative (CEI)[37] – стандарт описания средневековых хартий, интегрированный в TEI. Основой для стандартизированного описания хартий стал разработанный словарь соответствия терминов для этих документов, написанных на французском, немецком, английском, итальянском, латинском и испанском языках[38]. Для представления хартий была создана информационная система Monasterium.net (МОМ)[39], объединяющая 664 372 хартии из 182 европейских учреждений хранения (преимущественно архивов) и регулярно пополняемая новыми источниками. Размещение хартий на портале сопровождается созданием краткой аннотации, в которой отражаются библиографические и архивоведческие данные о документе и его история. XML-разметка аннотации предполагает дублирование каждого размеченного элемента на национальном (по принадлежности документа к учреждению хранения) и английском языках. Информационная система MOM включает встроенный XML-редактор EditMOM для обработки и разметки документов в режиме онлайн. Веб-приложение EditMOM позволяет пользователю работать с несколькими слоями документа одновременно и наряду с изображением иметь доступ к размеченному тексту источника, а также размечать тегами или редактировать (транскрибировать) текст документа.
Структура разметки, используемой при обработке и публикации исторических источников, может содержать как элементы археографического описания, так и расширенную информацию об источнике, его особенностях, состоянии, форме и содержании, а также сведения об электронной текстовой версии и другие данные. Элементы с идентификаторами (id, name и др.) в структуре тега фиксируют персоналии и географические места, упоминаемые в тексте документов. Например, при анализе указателей к стенографическим отчетам с применением XML-разметки [Поврозник, 2018] использовались теги с идентификаторами, в том числе для связывания персоналий со всеми разделами данных о деятельности каждого депутата во всех сессиях созыва Государственной Думы начала XX в. Структура тега с идентификатором персоны выглядит так:
Идентификаторы позволяют, например, объединить все упоминания о деятеле в источнике, а также одинаковые по смыслу, но варьирующиеся по написанию значения. Такая унификация на основе тегов является основой для более полного поиска по всей совокупности документов системы.
Отдельная группа элементов разметки может описывать работу над электронным документом, даты его изменений и историю (как, например, сведения о новых тегированных данных)[40]. Группа вспомогательных тегов используется для корректного отображения факсимиле источников в браузере, по аналогии с обычным представлением HTML-документов[41].
Использование разметки XML по единым стандартам способствует более активному развитию Semantic Web в плане наполнения семантическими публикациями исторических источников. Несмотря на массу средств и технологических решений, созданных для Семантической паутины, XML является одним из наиболее простых в использовании [Варфоломеев, Иванов, 2013].
Кроме электронных публикаций, XML востребован и для анализа текстов источников. Одним из направлений является компьютерная лингвистика и использование XML-разметки текстов при изучении языка и его развития, когда с помощью XML обозначаются морфологические и синтаксические признаки единиц текста (могут быть размечены как отдельные буквы и символы, так и их совокупности, а также слова, словосочетания, предложения и т. д.). Другой областью применения XML является текстометрический анализ, используемый в гуманитарных исследованиях.
В исторических информационных системах также применяется XML для анализа текстов. При этом системы имеют разные возможности и инструментарий для работы с историческими источниками. Так, на портале «Парламентская история позднеимперской России»[42] опубликованы размеченные на основе XML указатели к стенографическим отчетам Государственной Думы начала XX в. Схема разметки разработана для изучения деятельности парламентариев (рис. 2.6) и анализа динамики развития указателей как исторического источника (рис. 2.7). Информационная система предоставляет доступ к размеченным файлам с возможностью их скачивания и дальнейшего анализа.
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии