Мы видели какие проблемы возникают, когда исследователи сообщают только о значимых результатах, но, возможно, более важен тот сознательный или неосознанный набор мелких решений, которые принимает исследователь в зависимости от того, что, как ему кажется, показывают данные. Такие поправки могут касаться изменения структуры эксперимента; решения о прекращении сбора данных; того, какие данные нужно исключить, какие коэффициенты подправить, какие группы выделить, на каких характеристиках сосредоточиться, на какие группы разделить непрерывные переменные, как обработать недостающие данные, и так далее. Симонсон называет такие решения «степенями свободы исследователя», в то время как Эндрю Гельман описывает их более поэтично – «сад расходящихся тропок». Все эти ухищрения увеличивают шансы на получение статистической значимости и все подпадают под общее название «сомнительной исследовательской практики».
Важно различать поисковые и подтверждающие исследования. Поисковые эксперименты – как раз то, о чем говорит их название: это гибкие исследования с целью рассмотреть многие возможности и выдвинуть гипотезы для последующей проверки с помощью более формальных подтверждающих экспериментов. В поисковых исследованиях можно применять самые разные настройки, но подтверждающие исследования нужно проводить в соответствии с заранее установленным и предпочтительно публичным протоколом. Любой может использовать P-значения, чтобы охарактеризовать силу доказательств для своих выводов, но эти P-значения надо четко различать и по-разному интерпретировать.
Действия, направленные на получение статистически значимых результатов, известны как P-хакинг[251], и хотя самый очевидный метод – выполнить несколько проверок, а опубликовать только наиболее значимый результат, есть гораздо более тонкие способы, позволяющие исследователям реализовать свои «степени свободы».
Делает ли вас прослушивание песни «Битлз» When I’m Sixty-Four моложе?
Вы можете быть вполне уверены в правильном ответе на этот вопрос. Что делает его еще более впечатляющим, учитывая, что Симонсон с коллегами ухитрились (нужно признать, довольно мудреными средствами) получить существенный положительный результат[252].
Студенты Пенсильванского университета, распределенные случайным образом, слушали композиции When I’m Sixty-Four группы «Битлз», или Kalimba, или Hot Potato группы The Wiggles. Затем испытуемых спрашивали, когда они родились, на сколько лет себя ощущают и еще задавали несколько абсолютно не относящихся к делу вопросов[253].
Симонсон с коллегами постоянно анализировали эти данные всеми способами, до которых смогли додуматься, и продолжали набирать участников, пока не обнаружили некоторую значимую связь. Это случилось после 34 испытуемых, и хотя между их возрастом и записями, которые они слушали, не было выявлено никакой связи, при сравнении только When I’m Sixty-Four и Kalimba удалось получить P < 0,05 в регрессии, учитывавшей возраст отца. Естественно, исследователи сообщили только о значимом результате, не упомянув о бесчисленном количестве манипуляций и избирательной отчетности – все это было раскрыто только в конце статьи, которая стала классической преднамеренной демонстрацией практики, получившей название «харкинг» – выдвижение гипотез после того, как известны результаты[254].
В опросе 2155 американских психологов, проведенном в 2012 году[255], только 2 % признались в фальсификации данных. Но когда им задавали вопросы по списку, состоящему из десяти сомнительных исследовательских практик:
• 35 % сказали, что сообщили о неожиданном результате, как будто прогнозировали его изначально;
• 58 % признались, что продолжили собирать данные после проверки значимости полученных результатов;
• 67 % заявили, что не сообщили обо всех ответах в исследовании;
• 94 % признались, что использовали как минимум одну из вышеуказанных сомнительных исследовательских практик.
Независимо от того, насколько хороша (или нет) статистическая работа, в какой-то момент ее нужно представить на суд аудитории – коллегам-профессионалам или широкой публике. Ученые – не единственные, кто делает заявления на основании статистических данных. Правительства, политики, благотворительные и другие общественные организации – все сражаются за наше внимание, используя цифры и науку, чтобы обеспечить «объективную» основу для своих утверждений. Технологии способствуют увеличению разнообразия источников, постоянно расширяется общение в социальных сетях, но средств контроля их надежности у нас немного.