Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух методов лечения более эффективно продлевает жизнь, пациентов случайным образом распределяют по двум группам, после чего сравнивают средние интервалы выживания в каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго – возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего, будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать интервалы выживания тех пациентов, которые остались живы после прекращения исследования, – так появляются недостающие данные. Кроме того, пациенты, умершие в ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из исследования по причинам с ним не связанным.
Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим, что один из методов лечения был эффективным настолько, что все, кроме пары пациентов, выжили и продолжили жить после окончания исследования. В этом случае если бы мы игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили эффективность лечения.
Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых после завершения исследования, а также тех, кто умер по другим причинам или добровольно выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные интервалы называются «цензурированные», они показывают, что период времени между моментом, когда пациенты вошли в исследование и когда они
В 1958 г. в
Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше какого-то периода. Например, когда мы оцениваем средний интервал выживания. Распределения интервалов выживания, как правило, имеют положительное смещение. Это означает, что более длительные интервалы по сравнению со средним значением выживания встречаются реже, чем более короткие, то есть может быть много коротких интервалов и лишь небольшая горстка длинных. Статистики описывают такое распределение как «длинный хвост». Учитывая, что несколько наибольших значений при положительном смещении распределения могут быть
Так что же делать с этой проблемой?
О расширении выборки, на этот раз включающей выбывших из исследования до наступления смерти от рака простаты, не может быть и речи. Мы не сможем, например, включить в выборку тех, кто умер от других причин, чтобы увидеть, через какое время они умерли бы от рака простаты (и снова контрфактуальность!).