Если основой современного промышленного развития является ископаемое топливо, то данные сегодня – это «новая нефть». Так же, как это было некогда с нефтью, те, кто может эффективно контролировать данные и манипулировать ими, делают сегодня огромные состояния. Но еще более важным в этой аналогии является то, что подобно нефти данные необходимо очищать и предварительно обрабатывать, чтобы сделать их полезными. Борьба с загрязнением информации темными данными является примером такой очистки.
Однако аналогия с нефтью имеет и свои слабые стороны. В отличие от цены на нефть, одинаковой для всех, ценность данных зависит от того, что конкретно вы хотите знать. Более того, в отличие от нефти, данные могут быть проданы или переданы без смены собственника – по своей природе они могут копироваться и воспроизводиться неограниченное число раз. И, конечно, данные могут быть темными: то, чего у вас нет, может существенно ограничить то, что у вас есть. Помимо прочего, с данными связаны такие вопросы, как неприкосновенность частной жизни и конфиденциальность, которые просто не имеют аналогий в мире нефти. Данные представляют собой нечто большее, чем просто новый товар. Именно поэтому правительства прилагают столько усилий для решения этических вопросов, связанных с управлением данными.
В значительной степени революция данных была связана с
Классическим примером того, какие идеи можно извлечь из данных нового типа, служит проект «Миллиард цен». Альберто Кавалло и Роберто Ригобон из Школы менеджмента Слоуна извлекли огромное количество онлайн-цен из интернета и использовали их для построения индексов инфляции. На основе этого открытого источника данных они показали, что уровень цен и динамика инфляции в Бразилии, Чили, Колумбии и Венесуэле примерно совпадают. Кроме того, они обнаружили «в Аргентине большое необъяснимое расхождение между уровнями инфляции по онлайн-ценам и по официальной статистике»[166]. Простого объяснения этого несоответствия не было. Кавалло заключил: «Результаты для Аргентины подтверждают подозрение, что правительство манипулирует официальной статистикой по инфляции. Это единственная страна, где онлайн-инфляция с течением времени значительно отклоняется от официальных оценок».
Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен» позволяет обновлять индекс инфляции ежедневно.
Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com)»[167]. Они отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего лишь ценами и не показывают объемы продаж.
Дело не в том, что все это – непреодолимые препятствия. Понимая их, мы можем работать над их преодолением. Но проблема темных данных все равно останется, поскольку само понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается от традиционных определений.