Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Стоит отметить, что в этом примере округление является следствием конструктивных особенностей измерительного прибора. Если показания считываются с градуированной шкалы, такой, как на измерительной линейке, возникает естественное стремление округлить их до ближайшего удобного значения. Однако, если показания выводятся в цифровом виде на дисплей, они с большей вероятностью будут зарегистрированы точно или по крайней мере с бо́льшим количеством десятичных знаков. Это внушает оптимизм, поскольку автоматизация современных приборов оказывается полезной с точки зрения противодействия темным данным.

Последний пример подсказывает, что быть особенно внимательными нам следует, когда люди считывают значения с градуированной шкалы измерительного прибора, такой как на линейках, транспортирах или циферблатах. Но то же самое относится и к подсчетам, которые делают сами респонденты в процессе опроса. Джон Робертс-младший и Девон Брюер опросили потребителей наркотиков, со сколькими партнерами им довелось делить наркотики в течение предыдущих шести месяцев[53]. Хотя только два человека сказали, что имели девять партнеров, и четыре человека, что имели 11 партнеров, колоссальное число респондентов, равное 39, заявило, что у каждого из них было по 10 партнеров. Точно так же, у 21 респондента было по 20 партнеров, никто не сказал, что делил наркотики с 19 или 21 партнером. Все это выглядит весьма подозрительно. Было бы очень странно, если бы люди тяготели к такому конкретному количеству партнеров, и не менее странно, если бы эти пиковые значения просто случайно попали в выборку. Куда вероятнее то, что респонденты давали приблизительные ответы, округляя их до ближайшего десятка.

Я называю этот феномен округлением, но когда он является результатом человеческого фактора в процессе сбора данных, то может иметь и другое название: аккумуляция, скопление, образование максимумов, дискретизация или предпочтение определенных чисел.

Он также может принимать форму преднамеренного приближения максимальных и минимальных пределов к наблюдаемым значениям. Например, опросы на тему заработной платы часто включают формулировки типа «$100 000 и более», чтобы побудить ответить тех, кого предоставление подробной информации просто оттолкнуло бы от участия в опросе. При такой стратегии устанавливают верхний предел избыточности наряду с нижним пределом избыточности, когда отсекают нижние значения.

Игнорирование такого усечения может привести к серьезным ошибкам. Например, средняя заработная плата, рассчитанная на основе таких данных, может быть далека от действительности, если вы не учли тот факт, что «$100 000 или более» может означать намного больше, возможно, на десятки миллионов долларов. Более того, отсечение наибольших значений и обработка их как значений интервальных, безусловно, приведет к недооценке дисперсии данных.

<p>Обобщение</p>

Как правило, пытаться понять смысл большой таблицы данных, просто разглядывая ее, занятие малопродуктивное. Чтобы облегчить задачу, нужно сначала обобщить значения. Другими словами, мы анализируем данные, сжатые до формата сводок, который нам удобнее воспринимать. Например, мы вычисляем средние значения и диапазоны значений, а также более сложные статистические обобщения, такие как коэффициенты корреляции, коэффициенты регрессии и факторные нагрузки. Однако, по определению, любое обобщение означает жертвование деталями или, что то же самое, затемнение данных (DD-тип 9: обобщение данных).

Если я скажу вам, что средний вес американских мужчин старше 20 лет составляет 88,8 кг, то вы наверняка сочтете эту информацию потенциально полезной[54]. И действительно, можно сравнить это значение со значениями предыдущих лет, чтобы узнать, изменяется ли средний вес. Но вот что вы не сможете сделать, так это определить число мужчин, вес которых выше той или иной величины. Вы не сможете сказать, является ли это среднее результатом существования небольшого числа чрезмерно тяжелых мужчин и очень худых или же есть много таких, у кого вес чуть выше среднего. Вы не сможете сказать, для скольких мужчин среднее значение показывает их вес с точностью до килограмма. На эти и другие вопросы невозможно ответить, потому что само понятие среднего исключает индивидуальные значения, затемняя данные.

Из этого мы можем сделать несколько выводов. Один из них состоит в том, что разные статистические сводки, обобщая данные разными способами (например, по среднему значению, по разбросу значений, по степени отклонения значений от среднего), не сообщают нам всех данных. Затемняя данные, сводки могут скрывать важную информацию, и мы всегда должны быть начеку.

Перейти на страницу: