Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже если точно понимаем, что именно мы хотим узнать.

<p>Глава 4</p><p>Непреднамеренные темные данные</p><p><emphasis>Видим одно, регистрируем другое</emphasis></p><p>Общая картина</p>

Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в удобных целых числах, но такие измерения, как, например, длина, будут неизбежно округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон (миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после запятой. Иными словами, мы не можем определить детали дальше какого-то уровня приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может быть просто малюсенькой!). А это означает, что детали остаются во мраке.

Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или 0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 – диапазон точности, в пределах которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт, что мы имеем дело с темными данными.

Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем, что оно скрывает данные. Например, возраст людей часто записывается с точностью до ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя число дней, часов, минут и т. д., а также на то, что присущая данному параметру погрешность, связанная с разной продолжительностью самих родов, означает, что более высокая точность не может быть достигнута. Общее правило округления возраста до ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое прожил человек.

Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как «младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что происходит внутри возрастных групп. Эта проблема становится особенно заметной, если взять крайний случай и разделить людей на две категории – на младших и старших, в зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать, увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных лишает нас потенциальной возможности таких открытий, опуская плотный занавес.

Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением значений, может быть особенно коварным и даже привести к ошибочным решениям и действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений артериального давления[51]. Нет никакой разумной причины для того, чтобы эти реальные значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы должны ожидать, что около 10 % всех значений будут оканчиваться на 0, 10 % – на 1, 10 % – на 2 и т. д. Однако исследователи обнаружили, что 64 % всех показаний систолического артериального давления (в момент, когда сердце сокращается) и 59 % показаний диастолического давления (когда сердечная мышца расслабляется между ударами) оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было значительно больше четных чисел, нежели нечетных, а среди нечетных самой распространенной последней цифрой была цифра 5. Но реальные показатели кровяного давления не имеют этой странной тенденции группироваться вокруг определенных чисел! Значит, зарегистрированные значения искажены стремлением людей все округлять до удобных чисел.

Так ли это важно? Британский норматив по гипертонии указывает пороговые значения артериального давления, выше которых рекомендуется медикаментозное лечение[52]. В частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но склонность к округлению до значений, оканчивающихся на ноль (например, округление 137 до 140), означает, что у значительной части пациентов, у которых зарегистрировано это пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика