Понятие хранилище данных (Data Warehouse, DW) появилось в 1980-х годах для обозначения технологии, позволяющей организациям интегрировать данные из множества разнородных источников в рамках единой модели. С тех пор, особенно в связи с одновременным развитием бизнес-аналитики (Business Intelligence, BI) как основного драйвера принятия бизнес-решений, корпоративные хранилища данных успели стать обыденной вещью.
В главе 7, сопоставляя элементы референтной модели управления цепями поставок (SCOR-модель) с цепочкой поставок данных, мы отметили, что ведение хранилищ данных можно включить в группу процессов доставки, в частности складирования. При этом бизнес-аналитика больше соотносится с группой процессов «Делать», которая обеспечивает превращение материалов (данных) в различного рода информационные продукты.
14.1.1. Определение области знаний «Ведение хранилищ данных и бизнес-аналитика»
Хранилище данных (DW) включает два ключевых компонента – интегрированную базу данных, необходимых для принятия решений, и увязанное с ней программное обеспечение, используемое для сбора, очистки, преобразования и хранения данных из разнообразных внутренних и внешних источников. Кроме того, для поддержки функций ведения учета исторических данных, операционного и бизнес-анализа хранилище данных может включать вторичные витрины данных, т. е. выборочные копии данных из основного хранилища. В самом широком контексте под хранилищем данных может пониматься весь комплекс хранилищ, баз и витрин данных, используемых в организации в целях бизнес-аналитики.
Корпоративным хранилищем данных (Enterprise Data Warehouse, EDW) называют централизованное DW, предназначенное для информационного обеспечения BI-потребностей всей организации. EDW поддерживает корпоративную модель данных, что обеспечивает согласованность данных, используемых для принятия решений в масштабах организации.
Ведение хранилища данных включает осуществление текущих операций по извлечению, очистке, преобразованию, контролю и загрузке, обеспечивающих поддержку данных в хранилище в надлежащем состоянии. В процессе ведения DW первоочередное внимание уделяется обеспечению целостности и преемственности данных в историческом и бизнес-контекстах за счет применения к операционным данным адекватных бизнес-правил и реляционных связей. Кроме того, к сфере ведения DW относится также и поддержка процессов взаимодействия и согласования DW с репозиториями метаданных.
Понятие бизнес-аналитики (BI) имеет два смысловых значения. Во-первых, это вид анализа данных, который нацелен на изучение деятельности организации и выявление возможностей для развития бизнеса. Результаты такого анализа используются для совершенствования работы организации и достижения успехов в бизнесе. Во-вторых, под бизнес-аналитикой понимается еще и комплекс технологий, используемых для такого анализа данных[444]. Являясь логическим развитием инструментов поддержки принятия решений, инструменты бизнес-аналитики предоставляют возможности по формированию и обработке запросов (querying), извлечению информации (data mining), проведению статистического анализа (statistical analysis), формированию отчетности (reporting), сценарному моделированию (scenario modeling), визуализации данных (data visualization), а также созданию и применению информационных панелей (dashboarding). Средства бизнес-аналитики сегодня находят применение во всех областях – от бюджетного планирования до расширенной аналитики (advanced analytics).
В традиционном понимании ведение DW относится только к структурированным данным (в этом разделе основное внимание будет уделено вопросам построения и ведения DW именно в части таких данных). Однако с появлением новейших прогрессивных технологий к области BI и DW стали относить и управление полуструктурированными и неструктурированными данными (специфика BI/DW для этих данных рассматривается в разделе 14.3)[445].
14.1.2. Цели и бизнес-драйверы
Внедряя у себя хранилища данных, организации преследуют следующие основные цели:
● поддержка деятельности в области BI;
● повышение эффективности бизнес-анализа и принятия решений;
● изыскание инновационных возможностей по результатам углубленного анализа данных.
Наиболее действенные драйверы развития хранилищ данных – необходимость сопровождения операционных функций, выполнения требований нормативно-правового соответствия и обеспечения деятельности в области бизнес-аналитики.
Однако главный драйвер – поддержка BI. Бизнес-аналитика нужна для полного понимания устройства и работы организации, ее клиентов и продуктов. Организация, деятельность которой основана на знаниях, полученных посредством грамотного бизнес-анализа, способна к неуклонному повышению эффективности и получению конкурентных преимуществ. По мере нарастания темпов поступления возрастающих объемов данных BI все более переходит от ретроспективной оценки к предиктивной аналитике.