Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Вместо этого нам приходится прибегать к другим методам моделирования распределения тех, за кем мы не можем наблюдать. Обычно предполагают, что общее распределение времени имеет уже известную нам форму. Это предположение может основываться на прошлом опыте и наблюдениях за другими заболеваниями. Для придания наглядности можно привести одно распространенное предположение, которое состоит в том, что интервалы выживания имеют экспоненциальное распределение. Для такого типа положительно смещенных распределений характерно множество маленьких значений и несколько исключительно больших. Выбор конкретной модели этого типа может быть сделан на основе времени наблюдения выживания, а также того факта, что цензурированные интервалы должны быть больше наблюдаемых.

Хотя этот подход приемлем для многих случаев, мы не должны забывать, что в его основе лежит предположение о соответствии экспоненциальному распределению. Поэтому, как и всегда, если предположение сделано неверно, выводы будут искаженными.

Анализ выживания сочетает в себе интервалы выживания тех, чья смерть от изучаемой причины наступила в процессе наблюдений, и очевидный факт, что интервалы выживания остальных были дольше, чем этот процесс. Если бы мы могли оценить интервалы выживания этих остальных, то смогли бы суммировать все интервалы – и наблюдаемые, и оценочные. Это подводит нас к самому общему методу борьбы с недостающими данными – вменению. Ему и посвящен следующий раздел.

<p>Выход за пределы данных: вменение</p>

Пытаясь найти решение проблемы недостающих данных, вполне естественно в какой-то момент прийти к мысли, что можно взять да и заполнить пропуски некими заменителями. Такая стратегия называется вменением. После того, как мы вменяем недостающие значения, данные становятся полными и уже нет смысла беспокоиться о пустых ячейках – можно проводить анализ любым удобным способом. Например, после того как в табл. 6 будут вставлены значения отсутствующих возрастов, мы сможем легко вычислить средний возраст всех 10 человек в выборке. Однако этот метод подозрительно напоминает выдумывание данных, и, если мы не хотим быть обвиненными в мошенничестве, нужно тщательно продумать, как именно это делать. Более того, одно дело, если ненаблюдаемые значения принадлежат к категории NDD, и совсем другое, если они относятся к SDD или, что еще хуже, к UDD. Если недостающие значения принадлежат категории SDD, мы можем связать вмененные значения с теми или иными аспектами наблюдаемых данных. Но если недостающие значения относятся к категории UDD, то имеющиеся данные не смогут подсказать нам, какими должны быть вмененные значения, и непонятно, как в этом случае избежать неверных результатов.

Одна из причин того, что вменение недостающих значений зачастую упрощает анализ, заключается в самой природе многих статистических методов – они основаны на балансе и симметрии данных. Приведу пример. Однажды я консультировал производителя пластиковых автозапчастей, изготовленных методом литья под давлением, который хотел знать, какая комбинация трех факторов – температуры, давления и времени в пресс-форме – будет оптимальной и позволит получить продукт наилучшего качества. Исследованию подлежали два значения температуры, два значения давления и два – времени. (На самом деле этих значений было больше, но здесь я для упрощения возьму по два на каждый фактор и обозначу их как «высокое» и «низкое».) Когда для трех факторов существует по два значения, то в общей сложности мы имеем восемь комбинаций: все три фактора на высоких значениях; первые два на высоком, третий – на низком и т. д. Было выполнено несколько производственных циклов в каждой из этих восьми комбинаций, и каждый производственный цикл давал готовую деталь, качество которой можно было оценить. В подобных экспериментах, если одинаковое количество деталей создается при каждой комбинации трех факторов, то для получения результатов могут использоваться удобные математические формулы. Но анализ становится сложнее, если в результате разных комбинаций получено разное количество деталей. В частности, если изначально экспериментальный дизайн был ориентирован на то, чтобы получить хорошо сбалансированное число наблюдений, одинаковое для каждой комбинации факторов, но некоторые значения выпали (например, по причине отключения электропитания, что помешало осуществить ряд запусков в ходе производственного процесса), то данные становятся несбалансированными. Это может значительно затянуть анализ и потребовать сложных расчетов. Поэтому неудивительно, что идея вменения недостающих значений с целью восстановления баланса данных выглядит очень привлекательно.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика