Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Серхио Делла Сала и Роберто Кубелли[124] приводят случай, который может стать еще одним примером p-хакинга: Рэндел Суонсон и его коллеги сообщили о поражении мозга у американских дипломатов в Гаване якобы в результате воздействия «неизвестного источника энергии, повлиявшего на слуховые и сенсорные процессы»[125]. Суонсон и его команда пришли к выводу, что «эти люди, по-видимому, получили обширные повреждения клеток мозга, не вызванные травмой головы».

Но как они проверили свое предположение? Таблица, приложенная к статье Суонсона, описывает 37 результатов нейропсихологического теста, а в сноске к ней указано: «Жирный шрифт означает ненормальность, или менее 40-го процентиля». Кажется, это подразумевает, что любой, кто наберет менее 40-го процентиля распределения в любом тесте, может быть классифицирован как «ненормальный». Естественно, Делла Сала и Кубелли тоже интерпретировали это так. Но если бы все 37 тестов были идеально коррелированы (то есть все дали одинаковый результат для любого выбранного человека), это означало бы, что только 60 % населения получат оценку выше 40-го процентиля во всех тестах и, следовательно, будут классифицированы как нормальные. В то же время если бы результаты тестов не имели никакой корреляции между собой, то простой расчет показывает, что даже одного человека из 100 млн нельзя было классифицировать как нормального во всех тестах. На первый взгляд кажется, что Суонсон с коллегами сделали все возможное, чтобы доказать наличие повреждения мозга по меньшей мере у некоторых людей. Как отмечают Делла Сала и Кубелли, было бы правильнее применить существенно более строгий критерий ненормальности, скажем, 5 % вместо 40 %, однако ключевая проблема заключается в другом – в том, чтобы баллы ниже порогового значения в любом из 37 тестов в принципе не означали отклонения от нормы.

Кстати, замечу: все это совсем не означает, что вышеозначенные лица не страдали нарушениями функций мозга. Просто заключение о таких нарушениях почти наверняка можно сделать даже для группы здоровых людей.

Тем не менее иногда нам действительно требуется оценить широкий ряд аспектов набора данных. Например, в клиническом исследовании мы могли бы измерить 100 характеристик пациентов, сравнивая две группы, и попытаться узнать, отличаются ли они по какой-либо из них. (Действительно, если организуется дорогостоящее исследование, то имеет смысл измерить как можно больше вещей.)

К счастью, существуют инструменты для решения проблемы p-хакинга и снижения риска получения ложных и невоспроизводимых результатов при проведении множественных проверок гипотез. Первый такой метод появился в 1930-х гг. и был назван поправкой Бонферрони. Это способ корректировки p-значения каждой отдельно взятой проверки с учетом количества проведенных проверок. В частности, если мы добиваемся, чтобы у каждой из 100 проверок p-значение было на уровне 0,1 % (то есть шанс ошибочно отвергнуть истинную гипотезу равен 1 из 1000) вместо 2 %, то вероятность по крайней мере одного выявления значимости – если все гипотезы верны – составит всего 10 %, а не 87 %, как это было в примере выше. Проще говоря, если все 100 гипотез верны, то теперь существует лишь 10 %-ная вероятность того, что хотя бы одна из них будет отклонена как ложная. Это уже куда более приемлемо.

За последние три десятилетия был разработан целый ряд существенно более действенных инструментов решения проблемы множественных проверок. Многие из них являются расширенными и усовершенствованными вариантами метода Бонферрони, например контроль последовательности, в которой проводятся испытания. Но особенный прогресс в этом вопросе произошел благодаря работе Йоава Бенджамини и Йосефа Хохберга. Они переключили внимание с p-значения (то есть вероятности сделать неверный вывод, если гипотеза верна) на так называемую частоту ложных открытий. Это ожидаемая доля ошибок среди гипотез, помеченных как ложные. По всей видимости, такой подход эффективнее: он показывает, с какой вероятностью мы допускаем ошибку, когда признаем, что гипотеза неверна.

Помимо p-хакинга существует и другая, более фундаментальная причина неспособности воспроизвести результаты – потенциальные различия в условиях эксперимента. Отчеты об экспериментах, приведенные в научной литературе, традиционно должны быть краткими: этого требует стоимость публикации одной страницы в научных журналах (хотя сегодня, в эпоху интернета, такое ограничение уже не является необходимым), поэтому статьи редко описывают процедуры исследований в мельчайших деталях. К тому же, как мы уже говорили, сами исследования находятся на границе известного, и незначительные изменения условий эксперимента могут оказать большое влияние на его результаты.

Еще одной причиной ошибочных результатов является пагубная практика, получившая название HARKing, по первым буквам выражения «Hypothesizing After the Result is Known», или выдвижение гипотез, когда известны результаты проверки.

Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Похожие книги

Все жанры