Революция происходит не в технологиях хранения, а в генерации данных и попытках использовать их в неочевидных решениях. Большие массивы данных — лишь вспомогательный инструмент в давно существующих задачах маркетинга, управления запасами, оптимизации производства. «Работа с данными велась всегда, но сейчас можно говорить о переходе количества в качество. Сравнительно недавно появилось умение понимать, осмысливать данные и принимать решения на их основе. Произошло это за счет того, что данные и методы их анализа стали высокотехнологичными, — считает Андрей Себрант , директор по маркетингу сервисов “Яндекса”. — Пока за аналитику все чаще выдают статистику. Если вы загрузили данные, а в ответ получили лишь построенную по ним кривую и вынуждены сами ломать голову над причинами изменений и над тем, что с ними делать, — это статистика. Data science — это наука о работе с данными, умении вытягивать из больших объемов информации не просто тренды, а их объяснение и обоснование возможных решений».
«Научные задачи, которые data science ставит перед математикой, лежат скорее в инженерной сфере. Это связано с тем, что при работе с большими данными мы вынуждены отказываться от большого числа методов, которые перестают удовлетворять нас по скорости работы. Например, приходится отказываться от квадратичных методов, от линейного поиска. Взамен приходится идти на различного рода ухищрения и компромиссы. Изобретаются приближенные методы, которые не дают абсолютно точных результатов с научной точки зрения, но достаточные по качеству с точки зрения бизнеса», — считает Юрий Чехович. И это приносит свои плоды: например, после внедрения на «Балтике» решения по оптимизации управления цепочками поставок, позволяющего обрабатывать по 90 тыс. прогнозов в час, один человек стал справляться с объемом работ, который раньше выполнялся 30 сотрудниками, при этом точность прогнозирования возросла на 18,6%.
В работе с большими данными используется кластеризация — выделение однородных групп элементов, например потребительских сегментов или клиентов банков с нетипичным поведением, что сигнализирует о повышенном риске мошенничества. Оценки корреляций позволяют вычленить взаимосвязи между различными процессами — скажем, спросом на подгузники и сейсмической активностью. Экстраполяция и регрессионные методы используют для формирования прогнозов. Контент-анализ для вычленения интересов объектов наблюдения: например, при росте числа поисковых запросов на определенную марку автомобиля можно скорректировать производственные планы, а в ответ на поиск рецепта сборки бомбы в скороварке рекомендовать ассортимент подходящей посуды.
Работа с большими данными востребована в бизнесе для анализа поведения клиентов, автоматизации принятия решений в режиме реального времени, оптимизации запасов, оценки рисков, построения прогнозов рынка.
Если проблемы скорости и объема данных решаются прежде всего техническими методами, то анализ неструктурированных данных и их применение в бизнес-практике — задача уже интеллектуальная. Прежде компаниям приходилось иметь дело лишь с четко структурированными данными своей финансовой отчетности и такими же сведениями о клиентах и поставщиках. Теперь значительная часть представлена в форматах, мало соответствующих привычным форматам корпоративных баз данных, — это страницы в социальных сетях, видеозаписи, веб-журналы, логи многочисленных устройств, геолокационные данные. Но именно из них можно извлечь дополнительную информацию для принятия решений: если анкета заемщика кажется идеальной, но контент-анализ его поведения в интернете установил, что он с вероятностью 95% является неимущим, — это повод пересмотреть риски.
Подобные технологии намного эффективнее, чем может показаться на первый взгляд. В марте были опубликованы результаты работы алгоритма, характеризующего пользователей Facebook по оставляемым ими лайкам. Расовая принадлежность была угадана в 95% случаев, пол — в 93%, политические взгляды (демократ или республиканец) — в 85%, гомосексуальность — в 88%, религиозные убеждения — в 82%, наличие отношений — в 67%. При этом анализ ведется не по очевидным лайкам-маркерам, а по большим объемам менее информативных, но более популярных лайков. Например, гомосексуальность коррелирует с лайками Бритни Спирс и сериалу «Отчаянные домохозяйки», высокий IQ — с фильмом «Властелин колец» и музыкой Моцарта, а одиночество — с Марией Шараповой.
Data science требует видеть в данных отображение реальных процессов и уметь вычленять закономерности. Например, при панике, связанной с птичьим гриппом, карту его распространения построила компания Google, весьма далекая от медицины. Она обработала данные запросов о симптомах на разных стадиях развития болезни, что помогло ответить на вопросы, когда, где и в каком количестве люди заболеют.
Рентабельные головоломки