Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Эта условность может объяснить недостающие значения: возможно, пожилые женщины были менее склонны отвечать на вопрос о возрасте.

Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие наблюдения не связаны с какими-либо фактическими значениями данных, мы можем игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет отсутствовать слишком много значений и размер выборки значительно уменьшится, то повысится недостоверность наших выводов, но это уже другой вопрос.

А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен. Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если игнорировать такую вероятность, то мы занизим средний возраст жен.

Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого конкретного возраста не все жены могут сказать, сколько им лет, те, кто сообщает это, являются просто случайной выборкой всех жен для мужей этого возраста (напомню, мы предположили, что их желание отвечать не зависит ни от чего другого, кроме как от возраста мужа). Это означает, что средний возраст тех жен, которые сообщили его, можно использовать как оценку среднего возраста всех жен для мужей этого возраста. Кроме того, это означает, что мы можем изучать соотношения возраста мужа и возраста жены, используя только те возрастные пары, которые у нас есть. И после того, как мы оценим эти соотношения, можно использовать их для получения ожидаемого возраста всех жен для мужей конкретных возрастов. Теперь не составит труда оценить общий средний возраст всех жен: мы просто вычисляем среднее значение, используя возраст тех, кто ответил на вопрос, и ожидаемый возраст тех, кто этого не сделал.

Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены, которые не сообщили свой возраст, оказываются, как правило, старше тех, кто его сообщил, но у нас нет никакой информации о том кто из них кто. Любой анализ без учета такого искажения может содержать серьезные ошибки. В случае с категорией UDD нам нужно искать решение в другом месте.

Первоначально большинство исследований, посвященных тому, как справляться с проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо: экономика является особенно сложной в данном отношении областью, поскольку люди в экономике не просто пассивные объекты для измерения; они реагируют на само проведение измерений и, возможно, даже отказываются от них. В частности, они могут отказываться отвечать на вопросы в зависимости от ответов, которые предстоит дать.

Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г. американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие «селективные выборки» – это еще один способ показать, что у вас не хватает данных, а есть только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала создается модель, в которой намеренно отсутствуют некоторые данные, а затем она используется для корректировки общей модели – аналогично тому, как это было в примере с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим: значение заработной платы, которую получает женщина, связанное с другими переменными, но отсутствующее, если женщина увольняется (все то же самое относится и к мужчинам!).

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика