Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Сложность оценки вероятного времени выживания иллюстрируется на примере пациентов с раком простаты третьей стадии. Эта стадия означает, что имеются свидетельства проникновения раковой опухоли в близлежащие ткани. Чтобы определить, какой из двух методов лечения более эффективно продлевает жизнь, пациентов случайным образом распределяют по двум группам, после чего сравнивают средние интервалы выживания в каждой из них. Однако непременно будут пациенты, которые проживут еще довольно долго – возможно, десятилетия. Это хорошая новость для них, но мы не можем ждать столько времени, чтобы узнать, какой из методов лучше. Таким образом, исследование, скорее всего, будет прекращено до того, как умрут все пациенты. Это означает, что мы не будем знать интервалы выживания тех пациентов, которые остались живы после прекращения исследования, – так появляются недостающие данные. Кроме того, пациенты, умершие в ходе наблюдений, могут умереть по какой-то другой причине. Данные о том, как долго они прожили бы до наступления смерти от рака, также отсутствуют. И, как вы уже можете предположить, есть и третья категория темных данных, связанная с теми, кто выйдет из исследования по причинам с ним не связанным.

Очевидно, что если просто проигнорировать пациентов, реальное время выживания которых нам неизвестно, то мы попадем в ловушку ошибочных выводов. Например, предположим, что один из методов лечения был эффективным настолько, что все, кроме пары пациентов, выжили и продолжили жить после окончания исследования. В этом случае если бы мы игнорировали всех, кроме двух умерших пациентов, то сильно бы недооценили эффективность лечения.

Однако, хотя мы не будем знать продолжительность жизни пациентов, оставшихся в живых после завершения исследования, а также тех, кто умер по другим причинам или добровольно выбыл, нам будет известен тот момент, когда они перестали наблюдаться. Такие временные интервалы называются «цензурированные», они показывают, что период времени между моментом, когда пациенты вошли в исследование и когда они должны были умереть от рака простаты, больше, чем период времени, в течение которого они находились под наблюдением.

В 1958 г. в Journal of the American Statistical Association была опубликована интересная статья, в которой Эдвард Каплан и Пол Мейер показали, как оценить вероятность выживания людей за пределами временного интервала, то есть когда время выживания некоторых из них будет больше, чем время наблюдения[152]. Значимость этой статьи иллюстрируется в докладе Георга Дворского, где, в частности, приводится тот факт, что статья Каплана – Мейера занимает 11-е место в рейтинге наиболее цитируемых научных статей всех времен[153]. Учитывая, что общее число научных статей превышает 50 млн можно сказать, что это немалое достижение.

Иногда нам нужно выйти за рамки простой оценки вероятности выживания людей дольше какого-то периода. Например, когда мы оцениваем средний интервал выживания. Распределения интервалов выживания, как правило, имеют положительное смещение. Это означает, что более длительные интервалы по сравнению со средним значением выживания встречаются реже, чем более короткие, то есть может быть много коротких интервалов и лишь небольшая горстка длинных. Статистики описывают такое распределение как «длинный хвост». Учитывая, что несколько наибольших значений при положительном смещении распределения могут быть намного больше, чем основная масса значений, их отсутствие в анализе способно сильно повлиять на оценку среднего значения. Представьте себе, например, расчет среднедушевого дохода в Соединенных Штатах, исключив из него Билла Гейтса и других миллиардеров. Результат получится намного ниже. Что касается времени выживания, это может означать исключение тех пациентов, которые прожили дольше всех, что, несомненно, существенно исказит любые выводы.

Так что же делать с этой проблемой?

О расширении выборки, на этот раз включающей выбывших из исследования до наступления смерти от рака простаты, не может быть и речи. Мы не сможем, например, включить в выборку тех, кто умер от других причин, чтобы увидеть, через какое время они умерли бы от рака простаты (и снова контрфактуальность!).

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика