В этой главе мы рассмотрели некоторые пути, которыми темные данные вводят нас в заблуждение, если мы недостаточно внимательны или не вполне понимаем то, что собираемся выяснить. Следующая глава посвящена тому, как мы попадаемся на удочку, даже если точно понимаем, что именно мы хотим узнать.
Глава 4
Непреднамеренные темные данные
Общая картина
Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в удобных целых числах, но такие измерения, как, например, длина, будут неизбежно округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон (миллионная доля метра), десятая доля микрона, но не
Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или 0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 – диапазон точности, в пределах которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт, что мы имеем дело с темными данными.
Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем, что оно скрывает данные. Например, возраст людей часто записывается с точностью до ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя число дней, часов, минут и т. д., а также на то, что присущая данному параметру погрешность, связанная с разной продолжительностью самих родов, означает, что более высокая точность не может быть достигнута. Общее правило округления возраста до ближайшего
Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как «младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что происходит
Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением значений, может быть особенно коварным и даже привести к ошибочным решениям и действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений артериального давления[51]. Нет никакой разумной причины для того, чтобы эти реальные значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы должны ожидать, что около 10 % всех значений будут оканчиваться на 0, 10 % – на 1, 10 % – на 2 и т. д. Однако исследователи обнаружили, что 64 % всех показаний систолического артериального давления (в момент, когда сердце сокращается) и 59 % показаний диастолического давления (когда сердечная мышца расслабляется между ударами) оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было значительно больше четных чисел, нежели нечетных, а среди нечетных самой распространенной последней цифрой была цифра 5. Но реальные показатели кровяного давления не имеют этой странной тенденции группироваться вокруг определенных чисел! Значит, зарегистрированные значения искажены стремлением людей все округлять до удобных чисел.
Так ли это важно? Британский норматив по гипертонии указывает пороговые значения артериального давления, выше которых рекомендуется медикаментозное лечение[52]. В частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но склонность к округлению до значений, оканчивающихся на ноль (например, округление 137 до 140), означает, что у значительной части пациентов, у которых зарегистрировано это пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.