Читаем Разберись в Data Science полностью

<p><emphasis>Регрессия к среднему</emphasis></p>

Регрессия к среднему – это явление, суть которого формулируется достаточно просто: за экстремальными значениями случайной величины часто следуют менее экстремальные. Это наблюдение было впервые сформулировано как «регрессия к посредственности» в 1886 году сэром Фрэнсисом Гальтоном[141], который заметил, что дети высоких родителей оказываются менее высокими, чем они (что говорит о регрессии данного показателя), а дети низкорослых родителей – не такими низкорослыми. По сути, он выявил естественную, глубинную стабильность, существующую в росте людей и их потомков: за экстремальными значениями (низкими и высокими) обычно следуют не столь экстремальные (не такие низкие и не такие высокие) значения.

Хотя этот пример может показаться очевидным, регрессия к среднему имеет более широкие последствия для процесса рассуждения. Если вы не смотрите на все имеющиеся данные с высоты птичьего полета, некоторые наблюдения могут показаться экстремальными. В этом случае предвзятость может проявиться в том, что вы примете решение, основанное на этих экстремальных событиях, не принимая во внимание то, что независимо от ваших действий на горизонте находится более предсказуемое событие, близкое к истинному среднему значению.

Возьмем, к примеру, игрока Национальной футбольной лиги (NFL), который после выдающегося года оказался на обложке популярной видеоигры Madden NFL, но в следующем году показал гораздо менее впечатляющие результаты. Этот феномен получил название «проклятья Madden»[142]. Но мы называем это регрессией к среднему значению. Или представьте себе в целом благонадежного сотрудника, у которого выдался тяжелый год, в результате чего его работа получила плохие отзывы. Для него составляется план исправления, и в следующем году его производительность восстанавливается. Менеджер приписывает это улучшение своему мудрому руководству, однако показатели работника, скорее всего, в любом случае улучшилась бы из-за регрессии к среднему значению.

Регрессия к среднему призывает нас не верить выбросам. Ни удача, ни неудача не продлится вечно.

<p><emphasis>Парадокс Симпсона</emphasis></p>

Еще одно явление, на которое следует обратить внимание, – парадокс Симпсона. Это потенциально катастрофическая ловушка при работе с данными наблюдений (с которыми вам предстоит работать чаще всего). Парадокс Симпсона возникает в том случае, когда тенденция или связь между переменными меняется на противоположную после добавления третьей переменной. В связи с парадоксом Симпсона вам следует остерегаться двух ошибок: принятия корреляции за причинно-следственную связь и выявления неправильной корреляции.

Рассмотрим данные в табл. 13.1, взятые из исследования 1986 года, посвященного двум типам хирургических методов удаления камней в почках[143]. Обзор медицинских записей показал, что новая, минимально инвазивная процедура удаления камней в почках является более успешной (83 %) по сравнению с традиционной (78 %). Результаты были статистически значимыми и, по общему мнению, вполне убедительными.

Табл. 13.1. Показатели успеха хирургических процедур удаления камней из почек

К сожалению, в этих данных возник парадокс Симпсона. Дальнейший обзор данных показал, что при разбивке камней в почках по размерам, результат меняется на противоположный. Как оказалось, традиционная процедура отличалась высокими показателями успеха как у пациентов с небольшими камнями в почках (диаметром <2 см), так и у пациентов с большими камнями (диаметром ≥2 см). Эта разбивка показана в табл. 13.2.

Табл. 13.2. Парадокс Симпсона на примере показателей успеха хирургических процедур удаления камней из почек

Как это возможно? Дело в том, что новая процедура была опробована на множестве пациентов с небольшими камнями в почках (то есть на предположительно более легких случаях), в то время как традиционная процедура в основном использовалась для лечения пациентов с более крупными камнями в почках. Несмотря на то что традиционная процедура показала лучшие результаты при удалении небольших камней (93 %), новая процедура была выполнена гораздо большему количеству пациентов, а показатель ее успешности составил 87 %. Таким образом, общий показатель успеха новой процедуры тяготеет к 87 %. В табл. 13.2 мы видим, что общий показатель успешности традиционной процедуры (78 %) больше тяготеет к показателям успеха у пациентов с крупными камнями в почках (73 %). Новая процедура сработала хуже на этой группе, но она была выполнена слишком небольшому количеству пациентов, чтобы это повлияло на ее общий показатель успешности. Запутались? Это нормально. Именно поэтому данный феномен и называется парадоксом.

Чтобы снизить риски, связанные с парадоксом Симпсона, разделите наблюдения по группам случайным образом, чтобы исключить смешивание. Другими словами, соберите экспериментальные данные.

<p><emphasis>Предвзятость подтверждения</emphasis></p>
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных