Пути возникновения темных данных неисчислимы, как вы смогли убедиться, прочитав эту книгу. Они могут появляться и случайно, и преднамеренно: иногда люди пытаются скрыть правду, представляя вещи так, как им выгодно. Выявить это помогает бдительность, а также весьма полезная стратегия – взгляд под другим углом. Пищу можно охарактеризовать как «обезжиренную на 90 %», и это звучит соблазнительно, но если на упаковке будет написано «жирность 10 %», то это уже не так аппетитно. Аналогичным образом выбор лекарства или образа жизни может быть описан как снижение риска заражения каким-либо заболеванием вдвое. Но если цифры показывают, что сокращение вдвое уменьшило риск с 2 до 1 %, то вам это будет уже не так интересно: оба значения можно считать несущественными. Этот пример, возможно, станет еще ярче, если пролить свет на темные данные, содержащиеся в нем, перевернув их: повышение шансов избежать болезни с 98 до 99 % вряд ли привлечет хоть одного покупателя, если речь идет о лекарстве.
Наиболее очевидным источником темных данных является будущее. Несмотря на заявления различных провидцев, ясновидящих и пророков, будущее – это территория неизвестного, где неожиданные события всегда могут вмешаться и сбить вас с пути, по которому вы намеревались идти. Бессчетное число разорений в сфере бизнеса служит тому доказательством. Хедж-фонд Long Term Capital Management (LTCM) уже испытывал сложности, когда на него внезапно обрушился российский дефолт по облигациям в национальной валюте в 1998 г. Потенциальный коллапс LTCM с возможной цепной реакцией, которая бы вызвала огромные убытки в финансовой сфере, стал причиной масштабной операции по его спасению. Точно так же Swissair, ранее считавшаяся очень надежной компанией, начала «агрессивную стратегию заимствований и поглощений» в конце 1990-х гг., пока теракты 2001 г. в Нью-Йорке не обрушили ее рыночную стоимость, что не позволило компании справиться с долговой нагрузкой.
Последний в этой книге пример можно назвать демонстрацией эффекта темных данных в буквальном смысле. В конце 1970-х – начале 1980-х гг. произошла так называемая война форматов видеозаписи между Betamax от Sony и VHS от JVC. В принципе, Betamax был превосходной технологией, с лучшим разрешением и более качественным изображением, но победил VHS. Техническое превосходство Betamax не смогло перевесить его большую стоимость и ограничение времени записи одним часом. Кассеты же VHS позволяли делать двухчасовые записи. Проблема заключалась в том, что голливудские фильмы, как правило, длились более одного часа, а это означало, что часть важных данных невозможно было записать. Sony отреагировала на эту проблему, разработав свою технологию увеличения времени записи, но к тому времени, когда она стала доступна, формат VHS уже завоевал рынок.
Мы входим в дивный новый мир. Возможности, которые открываются перед нами благодаря углублению понимания и созданию надежных прогнозов на основе данных, ограничены исключительно нашим воображением. Однако мы должны действовать осторожно. Каждый шаг на этом пути чреват опасностями. Как я отметил в начале этой книги, мы не знаем и не можем знать всего о данных, которые анализируем, о том, как они были собраны или откуда поступили. И что еще хуже, мы не знаем, что чего-то не знаем. Поскольку то, чего мы не знаем, может быть критически важным, один неосторожный шаг способен сделать наши представления неверными, а прогнозы – ошибочными со всеми вытекающими последствиями для здоровья, финансов и благополучия в целом. Энтузиазм в отношении науки о данных полностью оправдан, но его следует сдерживать разумной осторожностью. Единственное решение состоит в том, чтобы осознать риски и неукоснительно проявлять бдительность.
Помните старый анекдот про пьяного, который искал ночью свои ключи под фонарем не потому, что потерял их там, а потому, что это было единственное освещенное место? То же самое часто происходит в отношении темных данных. Исследователи, аналитики и все, кто пытается извлечь какой-то смысл из данных, похожи на этого пьяного, если ограничивают себя имеющимися данными. Не понимая, как именно возникли данные и что именно может отсутствовать, вы сами ставите себя в положение того, кто ищет только там, где светло, а вовсе не там, где могут быть ответы. Но концепция темных данных выходит за рамки простого представления о незарегистрированных данных. Она также выходит далеко за пределы различий между известными неизвестными и неизвестными неизвестными. Да, все это темные данные, но также к ним относятся и данные, которые, возможно, никогда не могли существовать, или данные, которые мы намеренно фальсифицировали. Концепция темных данных переворачивает традиционный взгляд на вещи и ведет к углублению понимания явлений, встраивая наблюдаемые данные в более широкий контекст, частью которого и является.