Хотя эта корреляция ничего не говорит о причинности, она предполагает, что надлежащая психологическая помощь пациенту после выписки благотворно скажется и на его физическом здоровье. Это открытие может улучшить качество ухода, уменьшить количество повторных госпитализаций и снизить расходы на медицинское обслуживание. Данная корреляция была выявлена компьютером путем просеивания огромной базы данных, но человеку вряд ли удалось бы ее выявить самостоятельно. Корпорация Microsoft не вмешивалась в управление данными больницы. У нее не было гениальной идеи по их использованию. Да этого и не требовалось. Microsoft просто предложила правильный инструмент — свое программное обеспечение Amalga, чтобы извлечь ценную информацию.
Компании, компетентные в области больших данных, играют важную роль в цепочке создания ценности информации. Twitter, LinkedIn, Foursquare и другие компании имеют горы данных, которые нуждаются в обработке. Компании старого типа (такие как Ford и BP) тоже буквально утопают в данных, по мере того как все больше аспектов их деятельности и продуктов датифицируется. Как держатели данных они полагаются на специалистов в том, чтобы извлечь из них выгоду. Но, несмотря на престиж и солидные названия должностей в духе «ниндзя данных», работа технических экспертов не всегда так заманчива, как может показаться. Они трудятся в алмазных копях больших данных, получая при этом внушительную зарплату. Но драгоценные камни достаются тем, кто владеет данными.
Третья группа — это компании и частные лица, которые мыслят категориями больших данных. Их сила в том, чтобы видеть возможности раньше других, даже если у них нет навыков и данных на реализацию. Возможно, именно нехватка этих ресурсов позволяет им взглянуть на ситуацию со стороны. Их разум не обременен стандартными ограничениями, и они видят то, чего можно достичь, пусть это практически трудноосуществимо.
Брэдфорд Кросс — живое олицетворение того, что значит мыслить категориями больших данных. В августе 2009 года в свои двадцать с лишним лет он и его четверо друзей создали FlightCaster.com. Как и FlyOnTime.us, их служба прогнозировала вероятность задержки рейсов в США, анализируя данные обо всех рейсах за последнее десятилетие и сопоставляя их со статистическими данными о прошлых и текущих погодных условиях.
Примечательно, что этого не сделали держатели данных. Никто не обнаружил желания или нормативно-правовой инициативы использовать данные таким образом. Ведь если бы источники данных — Бюро транспортной статистики, Федеральное управление гражданской авиации и Национальная метеорологическая служба США — осмелились предсказать задержку коммерческих рейсов, Конгресс, наверное, провел бы слушания, и чиновники получили бы по заслугам. Поэтому за дело взялась группа ребят в толстовках и с математическим образованием. Авиакомпании тоже не могли — и не хотели — строить такие прогнозы. Они пользовались преимуществами как можно более неясного положения дел. А прогнозы службы FlightCaster оказались настолько точными, что даже сотрудники авиакомпании стали ими пользоваться: поскольку авиакомпании не объявляют о задержке вплоть до последней минуты, они хоть и являются основным источником информации, но не самым своевременным.
Ребята мыслили категориями больших данных, и это вдохновило их на реализацию идеи: общедоступные данные можно обработать так, чтобы дать миллионам людей ответы на животрепещущие вопросы. Служба FlightCaster Брэдфорда Кросса стала первопроходцем, но с большим трудом. В том же месяце, когда был запущен сайт FlightCaster (август 2009 года), энтузиасты из команды FlyOnTime.us начали в больших объемах собирать открытые данные, чтобы создать собственный сайт. В конечном счете преимущества, которыми наслаждалась компания FlightCaster, пошли на спад. В январе 2011 года Кросс и его партнеры продали свой стартап компании Next Jump, управляющей программами корпоративных скидок, в которых используются методы обработки больших данных.
Тогда Кросс обратил внимание на другую стареющую отрасль — новостные СМИ, увидев в ней нишу, которую мог бы занять внешний новатор. Его стартап Prismatic объединял и ранжировал контент со всего интернета на основе анализа текста, пользовательских настроек, популярности, связанной с социальными сетями, и анализа больших данных. Важно отметить, что система не делала различий между блогом подростка, корпоративным сайтом или статьей в Washington Post: если контент считался востребованным и популярным (что определялось по частоте просмотров и рекомендаций), он располагался в верхней части экрана.