Читаем Разберись в Data Science полностью

Однако визуализация данных показывает нечто неожиданное. На рис. 5.7 слева показана вполне ожидаемая для высокой корреляции картина: линейный тренд с разбросанными вокруг него точками данных. Однако график справа показывает, что количество деревьев положительно коррелирует с ценой дома только до определенной точки (11 деревьев), после которой тенденция меняется на противоположную. В районе Хиллтоп на газонах у некоторых домов деревьев может быть слишком много.

Данные, представленные на рис. 5.7, взяты не из набора данных о недвижимости в Эймсе, с которым мы работали до этого, а из популярного набора данных под названием «Квартет Энскомба»[42]. У него четыре набора числовых данных, имеющих идентичные сводные статистические показатели, но разные результаты визуализации. (Здесь мы привели только два и скорректировали данные в соответствии с темой недвижимости.)

Рис. 5.7. Два набора данных с коэффициентом корреляции 0,8

Мораль: используйте методы визуализации для проверки заслуживающих внимания корреляций в данных, потому что выявленная линейная зависимость может не рассказать всей истории.

Корреляция отсутствует, но все равно интересно

На рис. 5.8 показаны два графика, которые имеют одинаковый близкий к нулю коэффициент корреляции. Однако это не значит, что на них не происходит ничего интересного. C «датазавром», изображенным на левом графике, вам вряд ли доведется столкнуться, чего нельзя сказать о сценарии на правом графике. На нем на самом деле отображены пять групп линейно коррелированных данных, которые при рассмотрении их как единой группы оказываются линейно некоррелированными. Это явление известно как парадокс Симпсона, и мы поговорим о нем более подробно в главе 13.

Рис. 5.8. Набор данных Datasaurus можно загрузить бесплатно[43]. Как и в случае с «Квартетом Энскомба», оба представленных здесь набора данных имеют идентичные сводные статистические показатели

<p><emphasis>Осторожно: корреляция не означает причинность</emphasis></p>

Скорее всего, вы уже слышали фразу «корреляция не означает причинность»[44]. Однако повторить ее будет нелишним, учитывая, как часто ее игнорируют и неправильно понимают.

Когда две переменные коррелируют между собой, пусть даже и сильно, это не означает, что одна влияет на другую. Однако многие люди попадают в эту ловушку, пытаясь объяснить корреляцию между двумя переменными наличием причинно-следственной связи между ними. Чтобы показать, что корреляция не подразумевает причинность, статистики используют максимально абсурдные примеры. В частности, продажи мороженого коррелируют с нападениями акул (в обоих случаях пик приходится на летние месяцы). Размер обуви коррелирует с навыками чтения (и то и другое увеличивается с возрастом). Однако предположения о том, что сокращение объема продаж мороженого может снизить риск нападения акул, а покупка обуви большего размера может улучшить навыки чтения, абсурдны. Очевидно, что помимо температуры воздуха на улице в примере с мороженым и возраста в примере с размером обуви есть и другие факторы, играющие роль в формировании этих мнимых взаимосвязей.

Однако в тех случаях, когда в основе корреляции не лежит откровенная шутка, а истинный причинный фактор не известен, о мантре «корреляция не означает причинность» очень часто забывают.

Например, в ходе анализа данных о недвижимости вы обнаруживаете, что показатели школьной успеваемости коррелируют со стоимостью домов. Означает ли это, что близость хорошей школы повышает стоимость дома? Хорошие школы, по-видимому, делают район более привлекательным. А может быть, наоборот: более высокие цены на жилье способствуют повышению школьной успеваемости? Возможно, благодаря увеличению налоговых поступлений школе выделяется больше ресурсов. А может быть, причинно-следственная связь действует в обоих направлениях, создавая петлю обратной связи? В большинстве случаев мы точно этого не знаем. Здесь сочетаются многие факторы, и в имеющемся у нас наборе данных редко можно найти все ответы.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных