Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Время может скрывать данные разными путями. Данные могут перестать соответствовать точному описанию мира, одни факты могут перестать регистрироваться за пределами периода наблюдений, а другие – потому что изменилась их природа, и т. д. Примерами могут служить медицинские исследования интервалов выживания, когда смерть пациента наступила после окончания периода наблюдения, а также данные по населению 20-летней давности, что может иметь сомнительную ценность для разработки текущей государственной политики.

● DD-тип 8: неверно определяемые данные

Определения могут быть противоречивыми или со временем меняться, чтобы лучше соответствовать своему предмету и его назначению. Это может вызвать проблемы в случае с экономическими (и другими) временными рядами, когда данные, лежащие в их основе, могут перестать собираться. В более общем смысле, если люди по-разному определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров является уровень преступности в Великобритании, который оценивается по полицейским записям и по опросам потерпевших, где определения преступления неодинаковы.

● DD-тип 9: обобщение данных

Обобщение данных по определению означает отбрасывание деталей. Если вы сообщаете только среднее значение, то не даете никакой информации о диапазоне данных или об асимметрии распределения. Среднее значение может скрыть тот факт, что некоторые значения могут очень сильно от него отличаться. В то же время обобщение может скрывать и тот факт, что все значения идентичны.

● DD-тип 10: ошибки измерения и неопределенность

Ошибки измерения приводят к неопределенности истинного значения. Это легче всего понять, представив ситуацию, в которой диапазон погрешности измерения равен или больше, чем диапазон базовых истинных значений, – в этом случае наблюдаемое значение может сильно отличаться от истинного. Округление и нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят неопределенность в данные, скрывая их точные значения. Другой причиной неопределенности и неточности является связь данных, при которой идентифицирующая информация может храниться в разных формах, что приводит к ошибкам сопоставления.

● DD-тип 11: искажения обратной связи и уловки

Этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс – как в случае раздувания оценок и пузырей на рынках акций. Это означает, что данные искаженно представляют базовую реальность и, возможно, с течением времени все больше отдаляются от нее.

● DD-тип 12: информационная асимметрия

Информационная асимметрия возникает, когда разные наборы данных хранятся у разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и международную напряженность, вызванную ограниченной информацией о возможностях других государств.

● DD-тип 13: намеренно затемненные данные

Эти случаи предумышленного отбора определенных фактов являются особенно проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что такое мошенничество может возникать в очень разных контекстах и отношениях.

● DD-тип 14: фальшивые и синтетические данные

Когда данные создаются искусственно, они могут вводить в заблуждение, как и в случае мошенничества. Однако существует метод симуляции, когда генерируются искусственные наборы данных, которые могли возникнуть в результате изучаемого процесса, а также другие методы, использующие репликацию данных, например методы бутстреппинга, бустинга и сглаживания. Современные статистические инструменты широко используют такие идеи, но некачественная репликация может привести к ошибочным выводам.

● DD-тип 15: экстраполяция за пределы ваших данных

Наборы данных всегда конечны. Это означает, что они имеют максимальное и минимальное значения, за пределами которых лежит неизвестность. Заявление о возможных значениях выше максимума или ниже минимума в наборе данных требует выдвижения предположений или получения информации из какого-то другого источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на примере катастрофы шаттла Challenger, запуск которого произошел при температуре окружающей среды ниже диапазона температур предыдущих запусков.

<p>Подведение итогов</p>

Я не погрешу против истины, если скажу, что в последние столетия бурному развитию цивилизации сопутствует прогресс науки о данных. В конце концов, слово «данные» почти синонимично слову «факты», а именно на фактах базируется технический прогресс и просвещение, которые за последние века привели к росту экономики и развитию общества.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика