Регрессия к среднему – это явление, суть которого формулируется достаточно просто: за экстремальными значениями случайной величины часто следуют менее экстремальные. Это наблюдение было впервые сформулировано как «регрессия к посредственности» в 1886 году сэром Фрэнсисом Гальтоном[141], который заметил, что дети высоких родителей оказываются менее высокими, чем они (что говорит о регрессии данного показателя), а дети низкорослых родителей – не такими низкорослыми. По сути, он выявил естественную, глубинную стабильность, существующую в росте людей и их потомков: за экстремальными значениями (низкими и высокими) обычно следуют не столь экстремальные (не такие низкие и не такие высокие) значения.
Хотя этот пример может показаться очевидным, регрессия к среднему имеет более широкие последствия для процесса рассуждения. Если вы не смотрите на все имеющиеся данные с высоты птичьего полета, некоторые наблюдения могут показаться экстремальными. В этом случае предвзятость может проявиться в том, что вы примете решение, основанное на этих экстремальных событиях, не принимая во внимание то, что независимо от ваших действий на горизонте находится более предсказуемое событие, близкое к истинному среднему значению.
Возьмем, к примеру, игрока Национальной футбольной лиги (NFL), который после выдающегося года оказался на обложке популярной видеоигры
Регрессия к среднему призывает нас не верить выбросам. Ни удача, ни неудача не продлится вечно.
Еще одно явление, на которое следует обратить внимание, – парадокс Симпсона. Это потенциально катастрофическая ловушка при работе с данными наблюдений (с которыми вам предстоит работать чаще всего). Парадокс Симпсона возникает в том случае, когда тенденция или связь между переменными меняется на противоположную после добавления третьей переменной. В связи с парадоксом Симпсона вам следует остерегаться двух ошибок: принятия корреляции за причинно-следственную связь и выявления неправильной корреляции.
Рассмотрим данные в табл. 13.1, взятые из исследования 1986 года, посвященного двум типам хирургических методов удаления камней в почках[143]. Обзор медицинских записей показал, что новая, минимально инвазивная процедура удаления камней в почках является более успешной (83 %) по сравнению с традиционной (78 %). Результаты были статистически значимыми и, по общему мнению, вполне убедительными.
Табл. 13.1. Показатели успеха хирургических процедур удаления камней из почек
К сожалению, в этих данных возник парадокс Симпсона. Дальнейший обзор данных показал, что при разбивке камней в почках по размерам, результат меняется на противоположный. Как оказалось, традиционная процедура отличалась высокими показателями успеха как у пациентов с небольшими камнями в почках (диаметром <2 см), так и у пациентов с большими камнями (диаметром ≥2 см). Эта разбивка показана в табл. 13.2.
Табл. 13.2. Парадокс Симпсона на примере показателей успеха хирургических процедур удаления камней из почек
Как это возможно? Дело в том, что новая процедура была опробована на множестве пациентов с небольшими камнями в почках (то есть на предположительно более легких случаях), в то время как традиционная процедура в основном использовалась для лечения пациентов с более крупными камнями в почках. Несмотря на то что традиционная процедура показала лучшие результаты при удалении небольших камней (93 %), новая процедура была выполнена гораздо большему количеству пациентов, а показатель ее успешности составил 87 %. Таким образом, общий показатель успеха новой процедуры тяготеет к 87 %. В табл. 13.2 мы видим, что общий показатель успешности традиционной процедуры (78 %) больше тяготеет к показателям успеха у пациентов с крупными камнями в почках (73 %). Новая процедура сработала хуже на этой группе, но она была выполнена слишком небольшому количеству пациентов, чтобы это повлияло на ее общий показатель успешности. Запутались? Это нормально. Именно поэтому данный феномен и называется парадоксом.
Чтобы снизить риски, связанные с парадоксом Симпсона, разделите наблюдения по группам случайным образом, чтобы исключить смешивание. Другими словами, соберите экспериментальные данные.