Ури Симонсон особенно настаивал на том, чтобы рецензенты строже проверяли соответствие работ требованиям журнала, побуждая авторов предоставлять убедительные доказательства надежности результатов их исследований, а в случае сомнений могли настаивать на повторении опыта и расчетов. Но при этом он предлагал рецензентам терпимее относиться к несовершенству результатов, что способствовало бы составлению правдивых отчетов[270].
Однако как человек, который ссылался на сотни научных работ, хочу сказать, что определить наличие проблемы не всегда просто. Четкие требования, безусловно, полезны, но авторы всегда могут их проигнорировать, чтобы статья выглядела убедительнее. Должен признаться, что у меня развилось особое чутье на выявление неправдивых данных и недомолвок – например, если было выполнено большое число сравнений, а сообщено только об «интересных».
Мое чутье моментально реагирует, когда результат кажется уж больно хорошим, чтобы быть правдой, скажем, когда маленькая выборка дает слишком большой эффект. Классический пример – широко известное исследование 2007 года, утверждающее, что у привлекательных людей чаще рождаются дочери. В опросе американских подростков по пятибалльной шкале оценивалась их физическая привлекательность, а через пятнадцать лет у тех, кто в подростковом возрасте был оценен как «очень привлекательный», только 44 % первенцев были мальчиками, хотя стандартная величина для всех людей – 52 % (как показал еще Арбетнот, в среднем рождается чуть больше мальчиков, чем девочек). Этот результат статистически значим, но, как указал Эндрю Гельман, эффект слишком большой, чтобы быть правдоподобным, и наблюдается только в «самой привлекательной» группе. Информация, приведенная в статье, не позволяет понять, насколько маловероятно описываемое наблюдение, – здесь требуются специальные знания[271].
При проведении систематических обзоров, чтобы свести воедино всю имеющуюся информацию и представить текущее понимание явления, ученые просматривают огромное количество статей. Однако это занятие оказывается абсолютно бесполезным, если опирается на разбор работ, искажающих факты. Например, из-за того, что отрицательные результаты даже не пытаются публиковать и потому, что значимые результаты, полученные с применением сомнительных исследовательских практик, печатаются в избытке.
Для выявления такой систематической ошибки были разработаны специальные статистические методы. Предположим, у нас есть ряд исследований для проверки одной и той же нулевой гипотезы, скажем, что некоторое вмешательство неэффективно. Вне зависимости от реально проведенных экспериментов, если вмешательство действительно неэффективно, то можно доказать, что P-значение для проверки нулевой гипотезы имеет равномерное распределение от 0 до 1, а потому P-значения из множества исследований, проверявших гипотезу, должны распределяться равномерно. Тогда, если эффект действительно существует, P-значения должны смещаться в сторону малых значений.
Идея такой «P-кривой» – рассмотреть все указанные в исследованиях P-значения для значимых результатов теста, то есть для P < 0,05. Подозрение вызывают две вещи. Во-первых, если кластер P-значений чуть ниже 0,05, значит, какие-то результаты были искажены, для того чтобы передвинуть некоторые значения P через эту границу. Во-вторых, предположим, что эти значимые P-значения не смещены к нулю, а довольно равномерно распределены между 0 и 0,05. Тогда это в точности то, что могло возникнуть, если нулевая гипотеза верна, а нам сообщили как о значимых только о тех результатах, для которых P < 0,05 и которые в одном случае из двадцати попадают в этот диапазон по чистой случайности. Симонсон и его коллеги просмотрели опубликованные работы по психологии, поддерживавшие популярную идею, согласно которой предоставление людям излишнего выбора ведет к негативным последствиям. Анализ P-кривой указал на наличие ошибки в публикациях и отсутствие достаточно веских подтверждений этой идеи[272].
Кем бы мы ни были – журналистами, специалистами по фактчекингу, учеными, бизнесменами, политиками, работниками общественных организаций или просто представителями общественности, мы регулярно слышим какие-то заявления, основанные на статистических фактах. И оценивание их достоверности – жизненно важный навык для современного мира.