Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Вменение значений полезно, но совершенно очевидно, что если мы повторим анализ с другими вмененными значениями, то получим и другие результаты (где-то здесь бродит призрак выдумывания данных). Поскольку наша мотивация для подстановки значений заключается в том, чтобы упростить вычисления и постараться не искажать результаты, можно попытаться найти такие подставные значения, чтобы простой анализ, основанный на сбалансированных полных данных, давал те же результаты, что и сложные вычисления с использованием неполных данных.

Идея заманчива, и в некоторых ситуациях она действительно реализуема, но вам не кажется, что она напоминает замкнутый круг? Как найти эти столь необходимые нам подставные значения, которые не повлияют на результаты, если не произвести перед этим сложные вычисления? Мы вернемся к этому вопросу позже, когда убедимся, что попытка ответить на него может привести нас к глубокому пониманию того, какие процессы на самом деле происходят в данных. Однако сначала мы подробнее рассмотрим основные подходы к вменению.

Среднее вменение

Одним из самых распространенных подходов является подстановка на место недостающих значений среднего значения, рассчитанного на основе всех имеющихся. Так, мы могли бы заменить три неизвестных значения возраста в табл. 6 на среднее значение семи известных возрастов. Действительно, эта нехитрая стратегия легкодоступна во многих программных пакетах для анализа данных. Но, без сомнения, вы уже приобрели определенный скептицизм в отношении простых стратегий, когда дело касается темных данных, и наверняка пытаетесь понять, что может быть не так с этим подходом. Одну из возможных проблем мы уже обсуждали: если недостающие значения имеют системные отличия от зарегистрированных, то их замена средним значением может ввести нас в заблуждение. Например, если три человека, чей возраст отсутствует, старше, чем остальные семь, будет не слишком хорошей идеей заменить их возраст средним возрастом этих семи. Таким образом, среднее вменение может быть приемлемым, когда отсутствующие данные принадлежат категории NDD, но в остальных случаях оно только усложнит нашу задачу.

К сожалению, со средним вменением связана и другая проблема. Как правило маловероятно, чтобы все недостающие значения, будь они измерены, оказались идентичными. Это означает, что подстановка одного и того же значения на место всех недостающих делает «полные данные» искусственно однородными. Например, проделай мы это для возраста в табл. 6, и дисперсия (мера того, насколько сильно отличаются друг от друга значения) полной выборки по возрасту будет, скорее всего, меньше фактической, когда все возрасты наблюдаются реально.

Перенос вперед данных последнего наблюдения

Недостающие значения в табл. 6, по-видимому, не имеют какой-либо закономерности и отсутствуют случайным образом. В отличие от этого, как мы уже успели убедиться, часто обнаруживается, что люди с течением времени выпадают из исследования, так что каждое такое наблюдение ограничено временем выпадения, после которого все более поздние значения отсутствуют. Хорошей иллюстрацией этого служит рис. 4 в главе 2.

Когда возникает такая модель выпадения, мы можем использовать конкретный метод вменения, называемый «перенос вперед данных последнего наблюдения» (LOCF), суть которого отражена в его названии: пропущенное значение для пациента заменяется последним из зарегистрированных. Такой метод подразумевает, что измеряемые параметры не меняются за время, прошедшее с момента последнего измерения до момента возникновения недостающего значения. Это довольно смелое предположение (с учетом того, что «смелость» иногда служит эвфемизмом для «безрассудства»). И, конечно, встает вопрос о целесообразности такого подхода – ведь, как правило, сама причина повторения наблюдений заключается в том, что мы ожидаем изменений параметров с течением времени.

Неудивительно, что метод LOCF активно подвергается критике.

● «Если бы существовал приз за самую неподходящую аналитическую технику при исследовании деменции, то последнее наблюдение, перенесенное вперед было бы вне конкуренции»[154].

● «Вся аналитика на базе LOCF имеет сомнительную достоверность, если не сказать, что она явно ложная (может казаться истинной, но фактически является ложной)… LOCF не следует использовать ни в каком анализе»[155].

● «Как LOCF, так и подстановка среднего значения ложно увеличивает заявленную точность оценок, поскольку не учитывает неопределенность недостающих данных и обычно дает искаженные результаты»[156].

● «Использование LOCF нарушает статистические принципы, и подобные допущения могут быть оправданными лишь изредка»[157].

Такие комментарии обоснованно вызывают сомнения по поводу использования LOCF.

Прогнозирование на основе других переменных
Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика