Аналитические приложения работают по принципу извлечения данных из хорошо известных систем, таких как стандартные ERP или модели данных для представления в витринах, и переработки их в предустановленные показатели и форматы для вывода в отчеты или на информационные панели. По сути, бизнесу предлагаются готовые решения для оптимизации различных функциональных областей (например, управления персоналом) или встраивания в отраслевую вертикаль (например, аналитика розничного рынка). Приложения различных типов могут включать функции анализа клиентов, финансов, цепочек поставок, организации производства или управления персоналом.
Как отмечалось в главе 14, cреди приложений для оперативного анализа особо выделяются инструменты онлайновой аналитической обработки (online analytical processing, OLAP), обеспечивающие высокопроизводительную обработку многомерных аналитических запросов. Термин OLAP возник отчасти в противовес термину OLTP, использующемуся для обозначения онлайновой обработки транзакций. Обычно выдача данных в ответ на запросы OLAP происходит в матричном формате. Измерения определяются столбцами и строками матрицы, на пересечении которых выводятся факторы или значения. Концептуально это представление иллюстрируется как куб данных. Многомерный анализ с кубами особенно полезен там, где у аналитиков имеется хорошее представление об общей картине и структуре данных, а разобраться хочется с динамикой и сводной статистикой.
Традиционная область применения OLAP – финансовый анализ, ведь специалисты в этой области привыкли иметь дело со сводными таблицами данных, упорядоченными в рамках хорошо известных иерархий, выискивая и анализируя тенденции и закономерности; а кубы данных позволяют с легкостью переходить на иную шкалу измерений или масштабов даты и времени (годичные, квартальные, месячные, недельные, суточные, почасовые показатели), организационной структуры (мир, регион, страна, отрасль, компания, подразделение) или иерархии продуктов (категория, линия, наименование продукта). Многие пакеты программного обеспечения для BI сегодня используют OLAP-кубы в качестве одной из базовых моделей.
Краткие сведения об основных архитектурах OLAP-систем и принципах организации портфеля BI-приложений приведены в главе 14.
17.3. Наука о данных
В главе 14 был описан процесс осуществления деятельности в области науки о данных. Здесь мы рассмотрим наиболее важные из применяемых учеными по данным методов:
● машинное обучение;
● анализ настроений;
● интеллектуальный анализ данных и текстов;
● предиктивная аналитика;
● предписывающая аналитика;
● методы анализа неструктурированных данных;
● визуализация данных;
● объединение данных.
17.3.1. Машинное обучение
Машинное обучение исследует методы построения алгоритмов, реализованных в программном обеспечении. Можно рассматривать машинное обучение как синтез методов неконтролируемого самообучения (часто называемых извлечением информации – data mining) и методов контролируемого, или управляемого, обучения, которые имеют глубокие математические корни, в том числе из статистики, комбинаторики и оптимизации систем. Начала формироваться и третья ветвь – так называемое обучение с подкреплением без учителя: задаются целевые параметры, и система упражняется в их соблюдении (пример: автопилот транспортного средства). Программирование машин на быстрое усвоение повторяющихся структур запросов и адаптацию к изменениям наборов данных привело к появлению одноименного раздела «машинное обучение» и в области больших данных, где эта концепция получила новое применение. Процессы прогоняются, результаты сохраняются, а затем используются при последующих прогонах для уточненной настройки процесса, и такие итерации повторяются до получения результата желаемого уровня точности и детализации.
Машинное обучение занимается структурным построением алгоритмов познания и усвоения знаний. Выделяют три типа таких алгоритмов.
1. Обучение с учителем основано на применении обобщенных правил (пример: настраиваемый фильтр спама в почтовом приложении).
2. Обучение без учителя основано на выявлении скрытых паттернов, связей, закономерностей (т. е. собственно интеллектуальный анализ данных).
3. Обучение с подкреплением основано на достижении цели (например, выигрыша шахматной партии).
Статистическое моделирование и машинное обучение используют также для автоматизации нереализуемых или слишком затратных процессов в рамках исследовательских и проектных работ, когда требуется, например, методом проб и ошибок подобрать ключ к огромному набору данных, повторяя цикл экспериментальной обработки, анализа результатов и исправления ошибок. Такой подход позволяет значительно ускорить получение ответа, что и стимулирует организации к инициативам по поиску глубинных закономерностей посредством многократного повторения затратно эффективных процессов.