Любой желающий может убедиться в отсутствии корреляции между переменными, которые представлены двумя осями[280], – это можно просто увидеть на графике: по мере перемещения вверх по странице точки не отклоняются существенно ни влево, ни вправо. Однако это не значит, что две переменные не связаны друг с другом. На самом деле данный рисунок наглядно демонстрирует эту связь. График имеет форму сердца, с выпуклостями с обеих сторон вверху и острым концом внизу. По мере повышения информированности избиратели не становятся более активными сторонниками ни демократов, ни республиканцев, но они становятся более
Математический инструмент, подобно любому другому научному инструменту, обнаруживает только явления определенного типа; вычисление корреляции позволяет обнаружить сердцеобразную форму этой диаграммы разброса не в большей степени, чем ваш фотоаппарат способен зафиксировать гамма-излучение[281]. Имейте это в виду, когда вам скажут, что два явления в природе или в обществе оказались некоррелированными. Это не означает, что между ними вообще нет связи; нет только связи того типа, которую должна обнаружить корреляция.
Глава шестнадцатая
Вынуждает ли рак легких курить?
Что можно сказать о ситуации, когда корреляция между двумя переменными все-таки существует? Что это означает на самом деле?
Для упрощения задачи давайте начнем с простейшего типа переменной –
Когда вы сравниваете две бинарные переменные, корреляция принимает особенно простую форму. Например, утверждение, что существует отрицательная корреляция между семейным статусом и курительным статусом, означает только то, что семейные люди курят с меньшей долей вероятности, чем средний человек. Или, если сформулировать это иначе, курильщики вступают в брак с меньшей долей вероятности, чем обычные люди. Придется немного поразмышлять, чтобы убедить себя в том, что это одно и то же! Первое утверждение можно записать в виде такого неравенства:
семейные курильщики / все семейные люди < все курильщики / все люди
Второе утверждение можно записать так:
семейные курильщики / все курильщики < все семейные люди / все люди
Если умножить обе стороны каждого неравенства на общий знаменатель (все люди) × (все курильщики), становится очевидным, что эти два утверждения представляют собой разные способы выразить одну и ту же мысль:
(семейные курильщики) × (все люди) < (все курильщики) × (все семейные люди).
Точно так же, если существовала бы
Но здесь сразу возникает одна проблема. Безусловно, существует совсем малая вероятность, что доля курильщиков среди семейных людей