Так же как в ситуациях, приведенных Франксом в качестве примера, многие приложения для обработки больших данных первоначально предназначались для обработки неструктурированных данных, но после того как те проходят через такие приложения, как Hadoop и MapReduce, можно их анализировать как структурированные данные с использованием статистических программ или инструментов визуализации.
Шаг 5. Анализ данных
Поскольку сами по себе данные ни о чем не говорят, нужно проанализировать их и определить значения и взаимосвязи. Анализ данных включает выявление устойчивых моделей, или взаимосвязей между переменными, значения которых введены в массив данных. Если удается выявить взаимосвязи, тогда можно объяснить динамику переменных. Тогда будет легче решить проблему.
Предположим, что мы собрали данные по выборке избирателей относительно их намерения голосовать за того или иного кандидата. Метод сбора данных – опрос по телефону. Но в процессе анализа мы пытаемся выявить, каким образом регион проживания, образование, уровень дохода, пол, возраст и партийная принадлежность способны повлиять на выбор того или иного кандидата. Для обнаружения зависимостей в данных можно использовать целый ряд методов, начиная с достаточно простых – графиков, расчета удельного веса и средних значений переменных – и заканчивая сложными статистическими исследованиями.
Параметры массива данных и сложность предстоящего анализа подскажут, какими именно методами лучше воспользоваться. В главе 2 мы привели примеры таких методов. Если вы просто описываете сложившуюся ситуацию, то достаточно составить отчет или разработать набор графиков, показать, сколько анализируемых событий случилось в каждом временн
Исходя из этих условий, потребуется программное обеспечение, ориентированное на составление отчетов. Сбалансированные системы показателей, сводные таблицы, тревожные сигналы – это все формы отчетов. Во вставке «Основные поставщики аналитического программного обеспечения» мы перечислили ключевых поставщиков программного обеспечения, обеспечивающего визуальное представление результатов анализа.
ПРОГРАММЫ – ГЕНЕРАТОРЫ ОТЧЕТОВ
• BOARD International
• IBM Cognos
• Information Builders WebFOCUS
• Oracle Business Intelligence (including Hyperion)
• Microsoft Excel/SQL Server/SharePoint
• MicroStrategy
• Panorama
• SAP BusinessObjects
ИНТЕРАКТИВНАЯ ВИЗУАЛЬНАЯ АНАЛИТИКА
• QlikTech QlikView
• Tableau
• TIBCO Spotfire
КОЛИЧЕСТВЕННЫЕ МЕТОДЫ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
• IBM SPSS
• R (свободно распространяемое программное обеспечение)
• SAS
У всех этих поставщиков программного обеспечения есть программы для графического представления данных, но некоторые из них специализируются именно на
Кроме того, в перечне выделена группа поставщиков, специализирующихся на еще одной категории аналитических программ –