В идеальном мире измерены были бы все – и в начале шестимесячного периода, и в конце, но наш мир не идеален. Поэтому и возникает вопрос, на который нам нужно ответить: как отсутствие результатов тех, кто выпал из исследования, исказит его выводы? Выпадения в группе NDD произошли по причинам, не связанным с исследованием. Нет никаких оснований считать, что эти выпавшие данные могли иметь нечто общее, отличающее их от данных тех, кто остался в группе. По сути, это как если бы мы с самого начала просто взяли меньшую выборку. В среднем эти неизмеренные значения не повлияют на результаты анализа, поэтому мы можем смело их игнорировать. NDD – самая простая ситуация и, вероятно, самая редкая. В этом случае темные данные вообще не имеют значения.
Но если бы все было так просто!
Второй класс Рубина – SDD – уже более коварный. Отказ этих людей от участия в исследовании зависит от начального значения их ИМТ, уже измеренного и вполне видимого. В частности, те, у кого это начальное значение низкое, чаще выпадают и не доходят до этапа регистрации финального значения, тогда как те, у кого начальный ИМТ более высокий, меньше склонны к выбыванию.
Здесь важно отметить, что такой тип отсутствия данных не искажает наблюдаемую взаимосвязь между начальным и конечным значениями ИМТ. Для любого известного начального значения может не быть значения конечного, потому что некоторые участники покидают исследование, но те, которые остаются в нем, будут надлежащим образом представлять распределение окончательных значений ИМТ для людей с похожим начальным значением. Другими словами, мы можем оценить взаимосвязь между начальными и конечными значениями, используя только имеющиеся данные: это не исказит нашего представления о соотношении. Затем мы можем использовать это расчетное соотношение, чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального значения.
Наконец, у нас есть первый класс Рубина – случаи UDD. Эти случаи по-настоящему сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других наблюдаемых значений. Единственный способ оценить такие данные – получить информацию откуда-то еще или предположить самому, почему именно эти значения отсутствуют.
Вот еще один пример.
Специалист по социальной статистике Кэти Марш описала набор данных, собранных в 1980 г. путем случайной выборки, в которую вошли 200 британских супружеских пар[148]. Мы используем эту выборку для оценки среднего возраста замужних женщин в Великобритании в то время. Беглый взгляд на данные Кэти Марш показывает, что имеются недостающие значения, а возраст некоторых жен не зафиксирован. Вопрос заключается в том, влияют ли эти темные данные на подход к анализу и делают ли они недействительными выводы, к которым мы можем прийти? Как и в примере с ИМТ, ответ зависит от того, по какой причине данные отсутствуют.
Ненаблюдаемые значения возраста жен могут принадлежать категории NDD и не быть связаны с другими значениями данных в исследовании, известными и неизвестными.
Ненаблюдаемые значения могут также принадлежать категории SDD и зависеть от других значений, которые мы уже имеем. Предположим для упрощения, что решение жены о том, следует ли ей называть свой возраст, зависит исключительно от возраста ее мужа, а от значений прочих переменных не зависит. Так, жены, мужья которых старше их самих, могут вдвое реже сообщать свой возраст, чем жены, чьи мужья младше. Предположим также, что мы всегда знаем возраст мужа.
Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался, то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.[149]: