Этот термин появился благодаря пагубной практике проводить бесконечное множество проверок значимости без учета их количества. Почему это становится проблемой, понять несложно. Предположим, что мы проверяем 100 никак не связанных между собой гипотез, каждая из которых верна, но нам это неизвестно. Далее предположим, что мы рассматриваем p-значение на уровне 2 % для любой из этих 100 гипотез как достаточно низкое, чтобы отнестись к ней с сомнением. Для каждой взятой в отдельности проверки значимости это вполне разумно, поскольку означает, что вероятность ложных подозрений в отношении этой единственной гипотезы, если она верна, составляет всего 2 %. Но в случае, если вы проводите для каждой из 100 гипотез 100 проверок с уровнем p-значения 2 %, получается, что вероятность возникновения сомнений
Такая грубая ошибка допускается в научной литературе раз за разом. Рандомизированное исследование, проведенное в 1987 г. на материале четырех ведущих медицинских журналов, показало, что «74 % всех испытаний имели по меньшей мере одно сравнение, отклонившее верную гипотезу, а 60 % имели по меньшей мере одно сравнение, подтвердившее ошибочную, что явилось негативным следствием статистической проблемы множественных сравнений. Ни в одном из испытаний, в которых были обнаружены нарушения, не рассматривалось потенциальное влияние проблемы множественных сравнений на сделанные выводы». Под «негативным следствием… множественных сравнений» авторы подразумевают, что в исследованиях не учитывалась многочисленность статистических тестов, поэтому ложноположительные результаты были весьма вероятными. Хотелось бы надеяться, что эта проблема уже осталась в прошлом, однако по опыту могу сказать, что она до сих пор недостаточно осознается[122].
Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию: «Нейронные корреляции межвидового восприятия, полученные после смерти атлантического лосося: аргумент в пользу коррекции множественных сравнений»[123]. Статья основана на результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию фотографий, изображающих людей в различных ситуациях и… попросили определить, какие эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат МРТ-сканирования представляет собой примерно 130 000 элементов объемного изображения, которые по аналогии с двумерными пикселями называют
Статья Беннетта получила Шнобелевскую премию в 2012 г. Эта награда присуждается за «достижения, которые сначала заставляют людей рассмеяться, а затем – задуматься».
На эту тему есть анекдот. Экспериментатор A говорит экспериментатору Б, что у него большие проблемы с воспроизведением результатов, полученных Б. «Неудивительно, – отвечает тот, – ведь я тоже не смог получить их первые 100 раз, когда проводил эксперимент».