Читаем Исторические информационные системы: теория и практика полностью

В настоящее время многие текстовые источники, в особенности рукописные, представляются преимущественно в форматах изображений. Это связано и с необходимостью репрезентации внешнего вида источника, и с затратностью распознавания и транскрибирования текста. Представление текстовых источников исключительно в форматах изображений несет массу ограничений: поскольку они не идентифицируются как текст, то, соответственно, не могут быть обработаны на содержательном уровне компьютеризированными методами. В связи с этим возникает необходимость разнопланового представления данных – в качестве текста (в совокупности его содержательных особенностей, слоев и смысловых уровней) и изображения источника. Современные информационные системы позволяют представить документы в многоформатном отображении; для решения этой задачи используется XML.

Разметка особенностей текстовых источников на основе XML позволяет в более полной мере передать аутентичный характер источника. Многие источники имеют слабоструктурированный характер, поэтому их публикация в традиционных для цифрового мира форматах (как, например, HTML) несет существенные ограничения. Использование XML-разметки для публикации текстовых источников имеет значительные преимущества перед традиционными типами электронной публикации ввиду возможностей репрезентации комплексного характера источников. Использование языка XML в историко-ориентированных информационных системах позволяет повысить качество представления цифровых версий документов. Разметка структуры документов (заголовков, абзацев, строк и других элементов текста), особенностей синтаксиса и морфологии позволяет максимально полно представить многослойность источника без потери информативности.

На данный момент реализовано множество проектов публикации текстовых источников с использованием XML-разметки, в том числе информационная система, посвященная актовым книгам судов Великого княжества Литовского[25], которые хранятся в библиотеке Вильнюсского университета [Тимченко, 2013]. Другим крупным проектом публикации транскрибированных рукописных источников является «Манускрипт. Древние славянские памятники»[26].

Создатели электронных публикаций ориентируются на пользователя, выбирая формы представления текстовых источников, максимально соответствующие оригиналу или отредактированные в разной степени для расширения возможностей его прочтения менее подготовленной аудиторией. XML позволяет представить один и тот же источник в разной степени редактирования. Примером такого подхода является проект публикации цифровых версий документов Medieval Nordic Text Archive[27], в котором представленные документы кодированы несколькими уровнями разметки. Факсимильная разметка предполагает представление документа максимально близко к тексту источника; дипломатическая – означает изменения, внесенные в текст для облегчения прочтения документа; в нормализованной версии текста полностью обновлена орфография.

Использование разметки XML в кодировании текстов рукописных источников связано с возможностями этого языка в обработке столь специфичных документов, поскольку рукописные источники часто отличаются многослойностью. XML является эффективным инструментом представления всей совокупности информационных пластов исторического источника. К многослойным документам могут относиться как палимпсесты или рукописи, которые с течением времени дополнялись и изменялись внесением поправок, так и иные источники, например музыкальные нотные альбомы, содержащие информацию музыкального характера (совокупность строк и знаков – сами ноты, нотный стан и т. д.) и текстовую информацию. Технология XML позволяет эффективно учесть и извлечь источниковую информацию. Это подтверждают существующие информационные системы, содержащие источники указанного типа, например проект TheDanish National Digital Sheet Music Archive[28].

Электронная публикация рукописных источников имеет дополнительные сложности, связанные с разнообразием языков и диалектов, различными способами написания, вариативностью шрифтового оформления и иными особенностями. Фиксация этих источниковых особенностей в электронной версии может быть успешно осуществлена с помощью инструментария XML. В качестве иллюстрации подобного рода многоязычных электронных коллекций можно привести информационный ресурс, посвященный арабским рукописям, Arabic Manuscripts Online[29]. В информационной системе представлено более 12 тыс. рукописей и 4 тыс. печатных книг на 43 языках. Достоинством этой системы является транскрибирование фрагментов текстов источников на основе XML-разметки (в основном это заголовки, некоторые ключевые слова и персоналии), а также представление оригинального арабского текста и его транскрипции на латинице.

Перейти на страницу:

Похожие книги