Читаем Ценность ваших данных полностью

Как и у любого другого актива, у данных есть свой жизненный цикл. Для эффективного управления информационными активами организации необходимо его понимание и планирование.

Концептуально жизненный цикл данных описывается достаточно просто (рис. 8.6). Он включает:

● процессы планирования, а также проектирования и обеспечения доступности данных;

● процессы, которые создают или получают данные;

● процессы, которые осуществляют их перемещение, преобразование, хранение, а также обеспечивают обслуживание данных и предоставление совместного доступа к ним;

● процессы использования и расширения возможностей применения данных;

● процессы, обеспечивающие их ликвидацию.

Кроме того, на протяжении всего их жизненного цикла данные могут очищаться, преобразовываться, подвергаться слиянию или агрегироваться.

Требования к организации отдельных этапов жизненного цикла могут существенно различаться в зависимости от вида данных. Поскольку к данным разных категорий предъявляются различные требования, им присущи различные риски и отведены различные роли в организации, многие инструменты управления данными всецело сфокусированы на различных аспектах классификации и контроля. Например, основные данные имеют иное назначение и области применения, нежели транзакционные, соответственно и требования к управлению данными двух этих категорий предъявляются различные.

Специфика конкретного жизненного цикла данных в отдельно взятой организации может оказаться весьма запутанной, поскольку в течение цикла данные обычно перемещаются из одного места в другое внутри организации, а также за ее пределами. По сравнению с остальными видами активов ситуация с данными усложняется за счет такой характеристики, как возможность совместного использования неограниченным количеством потребителей[335]. Поэтому при управлении данными, наряду с управлением на отдельных фазах их жизненного цикла, важно обеспечивать контроль их движения по различным участкам хранения и обработки.

* DAMA International. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)

Для обозначения набора процессов и систем, участвующих в перемещении данных, часто используются термины «цепочка данных» (data chain) и «информационная цепочка» (information chain)[336]. Хотя у них есть не менее часто употребляемые синонимы – «поток данных» и «информационный поток»[337], метафора цепочки может оказаться очень полезной. Она подразумевает связь процессов и систем. Если одно звено обрывается, это негативно сказывается на всей последовательности элементов. При этом заметим, что для отражения реальных взаимосвязей в большинстве организаций (когда один набор данных может быть звеном многих цепочек) более точной была бы метафора сети данных.

С жизненным циклом данных и цепочкой данных связано такое понятие, как «происхождение данных» (data lineage). Под происхождением (lineage) обычно понимается линия связи с предком. Большинство людей, интересующихся происхождением данных, хотят осознать два аспекта.

Во-первых, их интересует подтвержденная информация о самом раннем экземпляре (первоисточнике) данных. В искусстве для обозначения истории владения художественным произведением (с того момента, как оно было создано, и по настоящее время) используется термин «провенанс» (provenance). В отношении данных существует аналогичный термин data provenance. Его можно перевести просто как «провенанс данных».

Во-вторых, люди хотят знать, как (а иногда и почему) данные менялись в процессе перехода от самого раннего экземпляра. Изменения могут происходить внутри одной системы или при передаче между системами. Понимание изменений в данных требует понимания цепочки данных, правил, которые применялись к данным по мере их перемещения по цепочке, и того, какое влияние эти правила оказали на данные.

Происхождение данных (data lineage) включает в себя и их провенанс, и сведения об изменениях данных (сведения о последовательности шагов по изменению при движении по цепочке данных, в том числе и при подготовке к применению для различных целей). Используя метафору цепочки легко представить, что данные по мере своего перемещения по ее звеньям будут сохранять некоторые (но не все) свойства своих предыдущих состояний и приобретать новые в процессе преобразования.

Следует заметить, что трактовки понятий data chain, data lineage и data provenance в разных источниках могут несколько различаться. Часто data lineage и data provenance рассматриваются отдельно. Здесь мы ориентируемся на книгу выпускающего редактора DMBOK2 Лауры Себастьян-Коулман «Измерение качества данных в целях постоянного совершенствования: Рамочная модель для оценки качества данных»[338].

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес