Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

До сих пор мы рассматривали такие несложные методы вменения – среднее значение от наблюдаемых, предыдущее значение для того же объекта или пациента, – что с ними справился бы и ребенок. Однако моделирование взаимосвязи между переменной с недостающим значением и другими переменными, а затем прогнозирование этого недостающего значения на основе значений наблюдаемых уже более сложная стратегия. Модель базируется на анализе полных наблюдений, где все значения присутствуют. Мы уже сталкивались с этой идеей, когда давали определение для категории SDD.

Например, в табл. 6 есть четыре строки, в которых присутствуют и значение возраста, и значение массы тела. Четыре соответствующие точки показаны на графике (рис. 6). Мы могли бы использовать их для построения простой статистической модели, связывающей возраст и массу тела. Прямая линия на рисунке является подходящей моделью, демонстрирующей, что для этих данных более высокие значения возраста связаны с меньшими значениями массы. (Замечу, что не стоит строить модели на выборках размером всего в четыре точки в реальной жизни!) Теперь мы можем использовать эту модель для прогнозирования недостающих значений массы при наличии значений возраста. Например, человеку, описанному в восьмой строке таблицы, 41 год, но значение массы тела для него неизвестно. Линия, которая служит нам моделью, подсказывает, что это значение может составлять около 91 кг.

Можно сказать, что это расширение идеи простого добавления среднего значения наблюдаемых данных с применением более сложной статистической модели, которая использует преимущества другой информации, доступной в таблице. Поскольку задействованы значения возраста, а не только массы тела, стратегия может дать лучшие результаты, чем простое использование среднего. В частности, ее применение целесообразно, если недостающие значения массы тела принадлежат категории SDD, а вероятность их отсутствия зависит только от возраста. Но если недостающие данные относятся к категории UDD, такая модель нам не поможет. Тем не менее нужно отметить, что эта стратегия моделирования и прогнозирования содержит в себе зачатки одной очень продуктивной идеи, к которой мы вернемся позже.

«Горячая колода»

Еще один простой метод вменения, основанный на наблюдаемых значениях, известен под общим названием «горячая колода». Чтобы найти замену отсутствующему значению в неполной записи, требуется сопоставить ее с другими записями, в которых значения имеются. Затем из наиболее подходящих записей случайным образом выбирают одну, значение которой подставляют на место отсутствующего элемента. Например, в табл. 6 неизвестен рост первой женщины. Сравнивая эту строку с другими, мы находим две сходных с ней в том, что они соответствуют женщинам в возрасте 41 и 31 года, что довольно близко к 38 годам – возрасту женщины с неизвестным ростом. После этого мы случайным образом выбираем одну строку, чтобы взять из нее значение роста и подставить в ячейку «Н/Д» для 38-летней женщины. Рост одной женщины составляет 165 см, а другой – 160 см. Если мы выберем, например, 41-летнюю, то вмененное значение будет 165 см.

Этот метод получил свое название в те дни, когда данные хранились на перфокартах, и в прошлом применялся довольно широко. Его привлекательность заключается в простоте, он не требует сложной статистики – всего лишь оценку степени сходства между записями. Однако все зависит от того, как именно вы определяете «сходство». Какие другие переменные вы собираетесь использовать, оценивая сходство? Как вы объединяете их для получения общего показателя? И следует ли считать одни переменные более важными и имеющими больший вес, чем другие?

Множественное вменение

Мы уже видели, что одна из очевидных проблем метода вменения состоит в том, что повторный анализ с использованием различных вмененных значений будет давать разные результаты. Но что если мы можем воспользоваться этим?

Каждый вариант дополненного набора данных представляет собой их вероятную конфигурацию, которая могла бы наблюдаться в реальности. Сводная статистика, рассчитанная на основе такого дополненного набора, также является вероятностным вариантом этой статистики, которая могла быть получена, если бы данные были полными с самого начала. Это означает, что если мы повторим вменение несколько раз, используя разные вмененные значения, то получим распределение значений суммарной статистики, по одному для каждого вероятного полного набора данных. Мы можем оценить различные параметры такого распределения, например неопределенность или дисперсию суммарной статистики. То есть вместо того, чтобы просто получить единственный «наилучший» вариант оценки, мы получаем показатель вероятности того или иного значения.

Эту стратегию повторных вменений принято называть множественным вменением. На сегодня это широко используемый инструмент для решения проблем с отсутствующими данными.

Итерация
Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика