Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения США в 1986 г., показало, что 3–5 % счетчиков причастны в той или иной форме к фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору[56]. Американский статистик Уильям Крускал утверждал, что «достаточно проницательный человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой структурированный и существенный набор данных или статистический сборник и менее чем за час обнаружить в нем странные числа»[57]. Медиааналитик Тони Твайман сформулировал закон, получивший известность как Закон Тваймана, который гласит, что любые численные данные, которые выглядят интригующе или как-то выделяются, обычно неверны[58]. Более того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире совершалось около 35 млрд финансовых транзакций, и с тех пор это число только увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр.

Специалисты в области глубинного анализа данных, которые занимаются поиском любопытных или полезных аномалий в больших наборах данных, называют следующие причины возникновения необычных структур в таких наборах (в порядке убывания их важности):

● проблема на уровне самих данных (возможно, они были повреждены или искажены в процессе сбора, или частично отсутствуют);

● аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о единичных значениях, которые не несут в себе существенной информации);

● структуры уже известны (как, например, в случае открытия того факта, что люди часто покупают сыр и крекеры вместе);

● структуры не представляют интереса (если, например, обнаружено, что около половины женатых людей в Великобритании – женщины).

Пока все эти факторы не исключены, необычная структура не может называться реальной, интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в этой области, кажущихся на первый взгляд открытиями, – не что иное, как иллюзии, вызванные проблемами на уровне данных.

Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных обходится экономике США примерно в $3,1 трлн в год»[59]. Однако верна ли эта оценка?

Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку стоимость выявления проблем с данными, исправления допущенных ошибок, а также их последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма $3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта оценка «данными низкого качества»?

<p>Недостатки приборов</p>

Влияние человеческого фактора огромно, но не только люди допускают ошибки: порой из строя выходят измерительные приборы, что тоже влечет за собой скрытые проблемы с темными данными. По крайней мере если неисправность прибора не обнаружить сразу, то он какое-то время будет регистрировать нулевые или просто неверные значения. Помните эти драматичные моменты в фильмах, когда сигнал на кардиомониторе обрывается и мы видим недвусмысленную прямую, сопровождаемую жутким писком? Так вот, точно такую же картинку можно получить, если сенсоры просто свалятся с пациента.

Один из моих аспирантов работал над проектом по исследованию влияния неблагоприятных погодных условий, таких как сильные ветра и ливни, на телекоммуникационные сети. Он собрал данные из подробных отчетов об авариях в сетях и их ремонте, а также из метеосводок (фактически связывая наборы данных, как это описано в следующем разделе). Будучи толковым студентом, прежде чем приступить к анализу, он внимательно изучил сами данные, отобразил их графически и так и этак, выискивая аномальные значения, и в результате заметил нечто очень странное. Необработанные цифры показывали, что часто ровно в полночь на сотовые вышки обрушивались ураганные порывы ветра. Это выглядело тем более таинственно, что никто почему-то о них не мог вспомнить. И действительно, записи Метеорологической службы подтверждали, что ничего подобного вроде бы не происходило.

У зловещей загадки оказался забавный ответ. Копая глубже, аспирант обнаружил, что в полночь установленные на вышках анемометры, измеряющие скорость ветра, автоматически перезагружались. И иногда в этот момент они выдавали сигнал сильного порыва ветра, что, конечно, не имело отношения к действительности. Если бы мой ученик не понимал необходимости тщательно проверять данные, их анализ привел бы к абсурдным выводам. Но, к счастью, он заметил проблему и смог ее решить.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика