Корреляции помогают анализировать объекты, выявляя не принципы их работы, а полезные закономерности. Безусловно, даже сильные корреляции не идеальны. Вполне возможно, что похожее поведение двух объектов — не более чем совпадение. Нет никаких гарантий, что даже сильные корреляции сумеют объяснить каждый случай. Не каждая рекомендация книг на сайте Amazon безошибочна. Корреляции дают не определенность, а лишь вероятность. Но в случае сильной корреляции между явлениями высока вероятность, что они взаимосвязаны. Многие могут подтвердить это, указав на полку, уставленную книгами по рекомендациям Amazon.
Корреляции дают возможность определять ценные закономерности явлений, чтобы подмечать их в настоящем и прогнозировать в будущем. Например, если событие А часто сопровождается событием B, нужно следить за B, чтобы спрогнозировать А. Такой подход позволяет уловить, чего вероятнее всего ожидать от события А, даже если мы не можем измерить или проследить его напрямую. Более того, это позволяет нам спрогнозировать дальнейшие события. Конечно, корреляции не могут предсказывать будущее — они лишь могут спрогнозировать его с определенной вероятностью. Но и это чрезвычайно ценно.
Walmart — крупнейшая в мире сеть розничной торговли, которая насчитывает более двух миллионов сотрудников. Ее объем продаж составляет около 400 миллиардов долларов — больше, чем ВВП большинства стран. Перед наплывом огромных массивов данных, порожденных интернетом, компания Walmart располагала, пожалуй, самым большим хранилищем данных среди коммерческих компаний в США. В 1990-х годах она произвела переворот в розничной торговле, внедрив учет всей продукции в виде данных с помощью сети Retail Link. Компания Walmart предоставила поставщикам возможность самим контролировать темпы и объемы продаж и запасов. Благодаря такой прозрачности Walmart удалось вынудить поставщиков самостоятельно заботиться о своей логистике. В большинстве случаев Walmart не выступает «собственником» продукта до момента продажи, тем самым снимая с себя риск обесценения запасов и снижая затраты. По сути, с помощью данных Walmart удалось стать крупнейшим комиссионным магазином.
О чем могут рассказать все эти накопленные данные, если их проанализировать должным образом? В сотрудничестве с экспертом в области обработки чисел Teradata (ранее — почитаемая корпорация NCR) компания Walmart стремилась выявить интересные корреляции. В 2004 году она взялась за изучение своих гигантских баз данных прошлых операций, которые включали не только информацию о товарах, приобретенных каждым клиентом, и общей сумме покупки, но и об остальных товарах в корзине, о времени суток и даже о погоде. Это дало компании возможность заметить, что перед ураганом росли объемы продаж не только фонариков, но и печенья PopTarts, а также сладких сухих американских завтраков. Поэтому, как только надвигалась буря, в магазинах Walmart поближе к витрине выкладывались коробки Pop-Tarts и припасы на случай урагана для удобства клиентов, снующих снаружи и внутри магазина, и, разумеется, для увеличения продаж.[57]
В прошлом специалистам из главного офиса пришлось бы заранее собрать данные и проверить идею. Теперь же, имея столько данных и улучшенные инструменты работы с ними, выявлять корреляции стало куда быстрее и дешевле.
Корреляционный анализ показал свою высокую эффективность задолго до больших данных. Эту концепцию в 1888 году выдвинул сэр Фрэнсис Гальтон, двоюродный брат Чарльза Дарвина, заметив взаимосвязь между ростом мужчин и длиной их предплечий. Математические расчеты, лежащие в основе корреляционного анализа, относительно просты и надежны. Благодаря этим характерным особенностям анализ стал одним из наиболее широко используемых статистических показателей. Но до перехода на большие данные корреляции имели ограниченную эффективность. Поскольку данные были скудными, а их сбор — дорогостоящим, специалисты по сбору статистики нередко интуитивно определяли вероятную закономерность, а затем собирали соответствующие данные и проводили корреляционный анализ, чтобы выяснить, насколько эта закономерность соответствовала действительности. В контексте службы Google Flu Trends это означало бы, что нужно предположить условия поиска, которые коррелируют с распространением гриппа, а затем провести корреляционный анализ, чтобы убедиться в правильности этих предположений. Учитывая набор данных Google из 50 миллионов различных условий поиска и более трех миллиардов запросов в день, интуитивно выбрать наиболее подходящие из них для тестирования не представляется возможным.
Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго — и они будут готовы признать что угодно».
Вильям Л Саймон , Вильям Саймон , Наталья Владимировна Макеева , Нора Робертс , Юрий Викторович Щербатых
Зарубежная компьютерная, околокомпьютерная литература / ОС и Сети, интернет / Короткие любовные романы / Психология / Прочая справочная литература / Образование и наука / Книги по IT / Словари и Энциклопедии