Эта условность может объяснить недостающие значения: возможно, пожилые женщины были менее склонны отвечать на вопрос о возрасте.
Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие наблюдения не связаны с какими-либо фактическими значениями данных, мы можем игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет отсутствовать слишком много значений и размер выборки значительно уменьшится, то повысится недостоверность наших выводов, но это уже другой вопрос.
А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен. Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если игнорировать такую вероятность, то мы занизим средний возраст жен.
Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого конкретного возраста не все жены могут сказать, сколько им лет, те, кто
Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены, которые
Первоначально большинство исследований, посвященных тому, как справляться с проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо: экономика является особенно сложной в данном отношении областью, поскольку люди в экономике не просто пассивные объекты для измерения; они реагируют на само проведение измерений и, возможно, даже отказываются от них. В частности, они могут отказываться отвечать на вопросы в зависимости от ответов, которые предстоит дать.
Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г. американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие «селективные выборки» – это еще один способ показать, что у вас не хватает данных, а есть только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала создается модель, в которой намеренно отсутствуют некоторые данные, а затем она используется для корректировки общей модели – аналогично тому, как это было в примере с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим: значение заработной платы, которую получает женщина, связанное с другими переменными, но отсутствующее, если женщина увольняется (все то же самое относится и к мужчинам!).