Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения США в 1986 г., показало, что 3–5 % счетчиков причастны в той или иной форме к фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору[56]. Американский статистик Уильям Крускал утверждал, что «достаточно проницательный человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой структурированный и существенный набор данных или статистический сборник и менее чем за час обнаружить в нем странные числа»[57]. Медиааналитик Тони Твайман сформулировал закон, получивший известность как
Специалисты в области глубинного анализа данных, которые занимаются поиском любопытных или полезных аномалий в больших наборах данных, называют следующие причины возникновения необычных структур в таких наборах (в порядке убывания их важности):
● проблема на уровне самих данных (возможно, они были повреждены или искажены в процессе сбора, или частично отсутствуют);
● аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о единичных значениях, которые не несут в себе существенной информации);
● структуры уже известны (как, например, в случае открытия того факта, что люди часто покупают сыр и крекеры вместе);
● структуры не представляют интереса (если, например, обнаружено, что около половины женатых людей в Великобритании – женщины).
Пока все эти факторы не исключены, необычная структура не может называться реальной, интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в этой области, кажущихся на первый взгляд открытиями, – не что иное, как иллюзии, вызванные проблемами на уровне данных.
Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных обходится экономике США примерно в $3,1 трлн в год»[59]. Однако верна ли эта оценка?
Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку стоимость выявления проблем с данными, исправления допущенных ошибок, а также их последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма $3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта оценка «данными низкого качества»?
Недостатки приборов
Влияние человеческого фактора огромно, но не только люди допускают ошибки: порой из строя выходят измерительные приборы, что тоже влечет за собой скрытые проблемы с темными данными. По крайней мере если неисправность прибора не обнаружить сразу, то он какое-то время будет регистрировать нулевые или просто неверные значения. Помните эти драматичные моменты в фильмах, когда сигнал на кардиомониторе обрывается и мы видим недвусмысленную прямую, сопровождаемую жутким писком? Так вот, точно такую же картинку можно получить, если сенсоры просто свалятся с пациента.
Один из моих аспирантов работал над проектом по исследованию влияния неблагоприятных погодных условий, таких как сильные ветра и ливни, на телекоммуникационные сети. Он собрал данные из подробных отчетов об авариях в сетях и их ремонте, а также из метеосводок (фактически связывая наборы данных, как это описано в следующем разделе). Будучи толковым студентом, прежде чем приступить к анализу, он внимательно изучил сами данные, отобразил их графически и так и этак, выискивая аномальные значения, и в результате заметил нечто очень странное. Необработанные цифры показывали, что часто ровно в полночь на сотовые вышки обрушивались ураганные порывы ветра. Это выглядело тем более таинственно, что никто почему-то о них не мог вспомнить. И действительно, записи Метеорологической службы подтверждали, что ничего подобного вроде бы не происходило.
У зловещей загадки оказался забавный ответ. Копая глубже, аспирант обнаружил, что в полночь установленные на вышках анемометры, измеряющие скорость ветра, автоматически перезагружались. И иногда в этот момент они выдавали сигнал сильного порыва ветра, что, конечно, не имело отношения к действительности. Если бы мой ученик не понимал необходимости тщательно проверять данные, их анализ привел бы к абсурдным выводам. Но, к счастью, он заметил проблему и смог ее решить.