Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это опросы представляют собой один из наиболее популярных и простых способов обратить темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду использование значений (случайного) подмножества всех членов определенной группы населения. Но альтернативный подход может состоять в том, чтобы формировать выборку, специально предназначенную для помещения ее в область темных данных. В конце концов, формирование 10 %-ной выборки для последующего анализа эквивалентно формированию 90 %-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об игнорировании оставшейся части совокупности и превращении ее в темные данные.
Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка») здесь имеет решающее значение. Выбор любым другим способом может привести к проблемам, уже описанным в этой книге. Использование случайного выбора означает, что недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли убедиться, что с этими типами темных данных можно справиться.
Сокрытие данных от самих себя: рандомизированные контролируемые исследования
Формирование выборки для анализа и, следовательно, выборки для отбраковки – самый простой пример использования темных данных. Другое их применение – рандомизированное контролируемое исследование, которое мы тоже уже обсуждали в главе 2. Предположим, что мы хотим определить, является ли предлагаемый новый метод лечения некоего заболевания лучше стандартного. Мы уже знаем, что основная стратегия состоит в том, чтобы случайным образом назначать каждому пациенту одно из двух лечений и сравнивать средние значения результатов в каждой группе.
Случайное назначение методов лечения служит гарантом
Идея случайного распределения пациентов по группам лечения имеет большой потенциал. По сути, она означает, что мы можем быть с высокой вероятностью уверены в том, что любые измеренные различия между группами связаны именно с лечением, а не с какими-то другими факторами. Другими словами, случайное распределение
Но, быть может, простого случайного распределения недостаточно? Если исследователи будут знать, к какой группе принадлежат какие пациенты, то даже при случайном распределении у них может возникнуть соблазн манипулировать данными, в том числе и неосознанный. Они могут по-человечески пожалеть пациентов, получающих неактивное плацебо, и начать больше заботиться о них. Или более строго интерпретировать критерии для исключения из исследования пациента с побочными эффектами, если будут знать, что он получает какое-то конкретное лечение.
Этого риска можно избежать, если скрыть идентичность групп, к которым относятся пациенты, так, чтобы ни пациенты, ни лечащие врачи не знали, кто какое лечение получает. Такое сокрытие групповых меток называется
Например, при сравнительном испытании двух лекарств каждому из них можно присвоить разные коды, при этом врачи не должны знать, какому лекарству какой код соответствует. Если снабдить лекарства одинаковой упаковкой, так, чтобы внешне она отличалась только нанесенным на нее кодом, врачи не смогут узнать, какое лечение они применяли, и потому будут лишены возможности сознательно или подсознательно относиться более внимательно к пациентам, получающим конкретное лекарство. То же самое относится и к специалистам по анализу данных, которые могут видеть код, соотносящий конкретного пациента с конкретным лечением, но не дающий информации, какое именно лечение маркировано тем или иным кодом.