К сожалению, некоторые из участников вышли из исследования в течение этих шести месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные, так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места, ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать выбывание участников и вот почему.
Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли придерживаться разработанной программы питания – им было стыдно и они не могли вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным, обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли. Третьи покинули исследование по причинам, не связанным с похудением, – кто-то переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где проводились измерения.
Для первой из этих трех категорий существует четкая связь между вероятностью выпадения и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они не придерживались программы питания, означало, что эти люди как минимум худели намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы
Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял мотивацию, существовала связь между вероятностью их выпадения и тем, что было измерено – начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей, ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем признаками того, что дела идут или могут пойти не так.
Наконец, третья категория состоит из людей, у которых причина выбывания не имела отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те, которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными» наблюдениями.
Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно запомнить, поэтому я переименую эти три типа механизмов появления недостающих данных.
● Я обозначу
● Я обозначу
● Я обозначу
Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем задумываться о том, как скорректировать недостающие данные. Последний тип механизма появления недостающих данных – самый простой, поэтому начнем с него.