Хотите вы этого или нет, но в ближайшее время на вас обрушится огромное количество данных. Возможно, уже обрушилось. Возможно, вы уже на протяжении некоторого времени пытаетесь справиться с этим, понять, как хранить данные для последующего доступа, как исправлять ошибки и недостатки или классифицировать их. Теперь вы готовы извлечь смысл из этого огромного набора данных путем их анализа, чтобы узнать что-то о своих клиентах, своем бизнесе или о некоторых аспектах своей организационной среды. А возможно, вы пока далеки от этого, но уже видите свет в конце туннеля управления данными.
В любом случае вы пришли по адресу. Билл Фрэнкс предполагает, что вскоре мир наводнят не только большие данные, но и книги о больших данных. Я предсказываю (без всякой аналитики), что эта книга будет отличаться от прочих. Во-первых, она одна из первых на эту тему. Но, самое главное, она сконцентрирована на ином.
Большинство книг о больших данных будут посвящены управлению большими данными: тому, как собирать их в базу данных или хранилище данных, или тому, как структурировать и классифицировать их. Если вы много читаете о Hadoop, MapReduce или других методах хранения данных, это значит, что вы наткнулись на книгу, посвященную управлению большими данными.
Это, конечно, важная работа. Независимо от их объема и качества данные мало чем полезны, если их не поместить в такую среду и формат, которые позволят получить к ним доступ и проанализировать их.
Сама по себе тема управления большими данными не обеспечивает движения вперед. Для того чтобы извлечь пользу из данных, необходимо проанализировать их и совершить какое-либо действие на основании результатов анализа. Так же как традиционные инструменты управления базами данных не обеспечивали автоматический анализ данных о транзакциях, полученных из традиционных систем, системы Hadoop и MapReduce не производят автоматическую интерпретацию данных, полученных от сайтов, картирования генов, анализа изображений или других источников больших данных. Даже до наступления эпохи больших данных многие организации многие годы (а иногда и десятилетия) занимались исключительно управлением данными, не извлекая из них никакой пользы в плане улучшения качества анализа и принятия решений.
Думаю, эта книга акцентирует внимание именно на том, на чем нужно. Она в первую очередь посвящена эффективному анализу больших объемов данных, а не управлению ими. Она начинается с данных и переходит к таким темам, как фреймовое представление решения, построение аналитического центра и создание аналитической культуры. Разумеется, здесь упоминается об управлении большими данными, однако основное внимание уделено созданию, организации, подбору персонала и воплощению аналитических инициатив, которые позволяют извлечь из входных данных пользу.
На тот случай, если вы этого не заметили: в настоящее время тема аналитики крайне актуальна в бизнес-среде. Я занимался в основном вопросами конкуренции компаний в области аналитики, и мои книги и статьи по этой теме были самыми популярными из всех, что я когда-либо писал. Конференции на тему аналитики проводятся повсеместно. У таких крупных консалтинговых фирм, как Accenture, Deloitte и IBM, имеется большой практический опыт в этой области. Многие компании, государственные и даже некоммерческие организации сделали аналитику своим стратегическим приоритетом. Сегодня наблюдается повышенный интерес к проблеме больших данных, однако в центре внимания должны по-прежнему оставаться способы приведения этих данных в форму, позволяющую проанализировать их и использовать в процессе принятия решений.
Билл Фрэнкс находится в уникальном положении: он может описать пересечение области больших данных и аналитики. Его компания Teradata, в отличие от других поставщиков систем хранения данных, всегда была максимально сосредоточена именно на анализе данных и извлечении из них пользы для бизнеса. И хотя компания хорошо известна как поставщик корпоративных инструментов для хранения данных, Teradata в течение многих лет также предоставляла набор аналитических приложений.
За последние несколько лет Teradata наладила тесное партнерство с SAS – ведущим поставщиком аналитического программного обеспечения – для разработки высокомасштабируемых инструментов проведения анализа больших баз данных. Эти инструменты, которые часто подразумевают встроенный анализ в среде хранилища данных, предназначены для таких мощных аналитических приложений, как системы обнаружения мошенничества в режиме реального времени и крупномасштабного скоринга[1] покупательского поведения потребителей. Билл Фрэнкс – скоринг-директор по аналитике этого партнерства и поэтому имеет доступ к идеям и опыту в области проведения крупномасштабного анализа и «обработки в базе данных». Вероятно, лучшего источника на эту тему просто не существует.
Так что же еще особенно интересного и важного содержится в этой книге?