Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это опросы представляют собой один из наиболее популярных и простых способов обратить темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду использование значений (случайного) подмножества всех членов определенной группы населения. Но альтернативный подход может состоять в том, чтобы формировать выборку, специально предназначенную для помещения ее в область темных данных. В конце концов, формирование 10 %-ной выборки для последующего анализа эквивалентно формированию 90 %-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об игнорировании оставшейся части совокупности и превращении ее в темные данные.

Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка») здесь имеет решающее значение. Выбор любым другим способом может привести к проблемам, уже описанным в этой книге. Использование случайного выбора означает, что недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли убедиться, что с этими типами темных данных можно справиться.

<p>Сокрытие данных от самих себя: рандомизированные контролируемые исследования</p>

Формирование выборки для анализа и, следовательно, выборки для отбраковки – самый простой пример использования темных данных. Другое их применение – рандомизированное контролируемое исследование, которое мы тоже уже обсуждали в главе 2. Предположим, что мы хотим определить, является ли предлагаемый новый метод лечения некоего заболевания лучше стандартного. Мы уже знаем, что основная стратегия состоит в том, чтобы случайным образом назначать каждому пациенту одно из двух лечений и сравнивать средние значения результатов в каждой группе.

Случайное назначение методов лечения служит гарантом беспристрастности. Оно выводит процесс распределения из сферы нашего выбора, делая его непрозрачным, не подверженным манипуляциям и влиянию предубеждений, как преднамеренных, так и неосознанных. Это качество случайности давно и по достоинству оценено. Как сказано в Библии: «Жребий прекращает споры и решает между сильными» (Притчи 18:18).

Идея случайного распределения пациентов по группам лечения имеет большой потенциал. По сути, она означает, что мы можем быть с высокой вероятностью уверены в том, что любые измеренные различия между группами связаны именно с лечением, а не с какими-то другими факторами. Другими словами, случайное распределение разрушает причинно-следственные связи: оно позволяет утверждать, что любые зарегистрированные различия вряд ли будут иметь отношение к различиям, существовавшим между людьми до исследования. Разрыв некоторых причинно-следственных связей означает, что различные исходы должны объясняться не возрастом, полом или другими, присущими людям факторами, а разными методами лечения, которое они получали.

Но, быть может, простого случайного распределения недостаточно? Если исследователи будут знать, к какой группе принадлежат какие пациенты, то даже при случайном распределении у них может возникнуть соблазн манипулировать данными, в том числе и неосознанный. Они могут по-человечески пожалеть пациентов, получающих неактивное плацебо, и начать больше заботиться о них. Или более строго интерпретировать критерии для исключения из исследования пациента с побочными эффектами, если будут знать, что он получает какое-то конкретное лечение.

Этого риска можно избежать, если скрыть идентичность групп, к которым относятся пациенты, так, чтобы ни пациенты, ни лечащие врачи не знали, кто какое лечение получает. Такое сокрытие групповых меток называется слепым, поскольку делает их невидимыми в буквальном смысле.

Например, при сравнительном испытании двух лекарств каждому из них можно присвоить разные коды, при этом врачи не должны знать, какому лекарству какой код соответствует. Если снабдить лекарства одинаковой упаковкой, так, чтобы внешне она отличалась только нанесенным на нее кодом, врачи не смогут узнать, какое лечение они применяли, и потому будут лишены возможности сознательно или подсознательно относиться более внимательно к пациентам, получающим конкретное лекарство. То же самое относится и к специалистам по анализу данных, которые могут видеть код, соотносящий конкретного пациента с конкретным лечением, но не дающий информации, какое именно лечение маркировано тем или иным кодом.

Перейти на страницу: