● Централизованный: централизованная архитектура предусматривает единое хранилище метаданных, копируемых из различных источников. Организациям с ограниченными ИТ-ресурсами, как и стремящимся к максимально возможной автоматизации управления метаданными, такой вариант архитектуры, как правило, не подходит. В то же время организации, стремящиеся к согласованности метаданных, извлекают максимальную пользу от хранения их в централизованном хранилище.
● Распределенный: полностью распределенная архитектура предусматривает единую точку доступа к метаданным через портал, обеспечивающий извлечение запрашиваемых данных из систем-источников в режиме, близком к реальному времени. Центральное хранилище при такой архитектуре отсутствует. Вместо него в среде портала управления метаданными ведутся каталоги данных, содержащихся в системах-источниках, и действуют общие правила оптимизации обработки запросов. Обращение непосредственно к системам-источникам осуществляется посредством протоколов, используемых промежуточным ПО.
● Гибридный: гибридная архитектура сочетает в себе элементы, свойства и характеристики как централизованной, так и распределенной архитектур. Метаданные все так же поступают в центральный репозиторий непосредственно из систем-источников, но сохраняются они там выборочно. Обычно система управления таким хранилищем предусматривает сохранение критически важных стандартизованных элементов метаданных из систем-источников и последующее добавление дополнительных элементов по запросу пользователей, в том числе в ручном режиме из сторонних источников.
15.2.5. Контекстная диаграмма области знаний и уровни зрелости функции «Метаданные»
Контекстная диаграмма области знаний «Метаданные» представлена на рисунке 15.6.
На рисунке 15.7 отражено распределение деятельности в области управления метаданными по этапам их жизненного цикла.
На рисунке 15.8. представлены обобщенные характеристики уровней зрелости функции «Метаданные».
* DAMA. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)
15.3. Управление качеством данных
Одна из трудностей управления качеством данных заключается в том, что ожидания в отношении качества данных не всегда известны. Бывает, что потребители просто неспособны их сформулировать. А порой случается и так: люди, отвечающие за управление данными, не отдают себе отчета в том, что к этим данным могут быть применимы какие-то специфические требования.
Поскольку ни одна организация не может похвастаться безупречностью технологических и бизнес-процессов, а также практик управления данными, проблемы с качеством данных неизбежны. Однако в организациях, где реализована формальная система управления качеством данных, проблемы возникают реже и решаются проще, чем в организациях, где качество данных – дело случая.
15.3.1. Определение области знаний «Качество данных»
Термин качество данных (Data Quality, DQ) распространяется как на характеристики, связанные с высоким качеством данных, так и на процессы измерения или повышения качества данных.
Следует разделять эти два варианта использования термина и пояснять, что понимается под данными высокого качества.
Данные можно считать высококачественными в той мере, в которой они соответствуют потребностям и ожиданиям потребителей. То есть данные обладают высоким или низким качеством, если они, соответственно, пригодны или непригодны к использованию по назначению. Следовательно, качество данных зависит от контекста и потребностей потребителей данных.