Читаем Ценность ваших данных полностью

Предлагаемая модель ориентируется на внедрение в организации новой ИТ-системы на основе готовых инструментов, которые могут быть настроены и доработаны под особенности задач заказчика. Поэтому каждая компонента модели имеет программную и аналитическую части. Часть функционала компоненты выполняет соответствующее ПО, а часть – человек (аналитик). Работы по наладке компоненты целесообразно разделить на наладку/реализацию некоторого ПО и выполнение аналитических функций. Например, создание логической модели МД – аналитическая функция, а очистка данных – программно-аналитическая. В последнем случае речь идет о создании и программной реализации специальных правил очистки, которые применимы именно для этих данных, именно для этой организации, и применении этих правил, включая анализ результатов, возможно создание новых правил. При этом используется готовое ПО, но отдельные специальные правила, ориентированные на специфику данных организации, могут быть реализованы в виде дополнительного ПО, созданного в рамках MDM-проекта.

Основные пакеты модели

● Сбор данных. В этот пакет включены компоненты, отвечающие за идентификацию данных-кандидатов в основные данные, так называемых сырых данных, а также за их дальнейший анализ и предварительную обработку. Сюда же входит доступ к различным источникам данных.

● Обработка данных. В этот пакет включается функционал по созданию и хранению основных данных в хабе данных, включая создание и поддержку логической модели данных, а также выполнение классификации, иерархизации. В хаб поступают предварительно обработанные сырые данные, полученные из источников данных. Здесь они обрабатываются, становясь основными данными.

● Доставка данных. В этот пакет включены функциональные компоненты, отвечающие за доставку основных данных системам потребителям. Источники и потребители данных могут совпадать полностью или частично. При этом оказывается важным решение вопросов разделения прав доступа к данным, а также реализация различных режимов доставки данных потребителям. Выделяют следующие режимы доставки: пакетный, режим реального времени и подписочный режим.

Предложенная модель ориентирована на сценарий не только одноразовой загрузки данных, но и на их повторяющееся обновление в хабе с учетом поступления новых «сырых» данных из источников.

Пакеты и функциональные компоненты модели представлены на рисунке 13.1.

* Кузнецов С. В., Кознов Д. В. Управление мастер-данными в рамках итеративного подхода // Онтология проектирования, 2021. Т. 11, 2 (40): 170–184. – DOI: 10.18287/2223–9537–2021–11–2–170–184.

13.5.1. Инвентаризация данных

В рамках этого пакета производится идентификация источников данных, а также определяется, какие именно данные из этих источников нужно преобразовывать в основные данные. Необходимо определить точный состав основных данных. Чем больше разнообразие данных, тем сложнее (и, следовательно, дороже) будет MDM-проект. При этом собирают лишь те атрибуты, которые будут востребованы потребителями данных. Важно провести типизацию данных, выяснить реальную заполняемость каждого существенного атрибута и его типовые значения. В этом пакете также определяется уровень доверия к различным источникам данных. Возможна ситуация, что некоторый источник имеет очень низкую степень доверия, в частности, он может хранить данные, которые давно не обновлялись. Обращаться к нему следует лишь в крайнем случае. Эта функциональная часть – преимущественно аналитическая.

13.5.2. Организация доступа к источникам данных

Поскольку сырые данные, которые должны использоваться для создания основных данных, находятся в различных источниках данных организации-заказчика, то для создания MDM-решения необходимо организовать программный доступ к этим данным. В большинстве случаев загрузка данных является многоразовой процедурой и должна выполняться регулярно во время функционирования MDM-решения. Для автоматизации этой процедуры необходимо решить технические задачи, так как источники данных часто реализованы на разных платформах и могут не иметь программных интерфейсов доступа. Эта функциональная часть – преимущественно программная. Объем работ здесь во многом зависит от того, насколько обмен данными налажен в организации (например, уже могут быть внедрены технологии передачи данных между различными информационными системами организации).

13.5.3. Очистка данных

Под очисткой данных понимается устранение ошибок в данных и нормализация данных из различных источников перед их загрузкой в хаб. Это необходимо, поскольку в противном случае будет непросто искать в данных дубликаты, а также выполнять их консолидацию. Очистка данных – трудоемкий процесс. Первичная очистка, включая нормализацию и приведение значения всех атрибутов к единому формату, не является затратной, однако она значительно упрощает дальнейшие шаги по консолидации данных и восстановлению связей между сущностями.

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес