Вы получаете анонимное письмо, 2-ого января, сообщающее Вам, что рынок будет повышаться в течение месяца. Это оказывается правдой, но вы игнорируете его, вследствие известного эффекта января (исторически, акции повышались в течение января). Тогда вы получаете другое письмо, 1-ого февраля, сообщающее вам, что рынок понизится. Снова, это оказывается правдой. Потом вы получаете другое письмо, 1 -ого марта - та же история. К июлю вы заинтригованы предвидением анонимного человека и вас просят вложить капитал в специальный оффшорный фонд. Вы вкладываете туда все ваши сбережения. Двумя месяцами позже, ваши деньги пропали. Вы проливаете слезы на плече вашего соседа и он сообщает вам, что он помнит, что он получил два таких таинственных письма. Но почтовые послания остановились на втором письме. Он вспоминает, что первое предсказание был правильным, а второе - нет.
Что случилось? А трюк в следующем. Мошенник-оператор тянет 10,000 имен из телефонной книги. Он отправляет бычье письмо одной половине выборки, и медвежье - другой половине. В следующем месяце, он выбирает имена людей, кому он отправил письма с правильным предсказанием, то есть 5,000 имен. В следующем месяце он делает то же самое для оставшихся 2,500 имен, пока список не сузится до 500 человек. Из них 200 будут жертвами. Инвестиция нескольких тысяч долларов в почтовые марки превратится в несколько миллионов.
Прерванная игра в теннис
Часто, при просмотре теннисной игры по телевидению, вас засыпают рекламными объявлениями от фондов, которые сделали (до этой минуты) лучший результат, больший на некоторый процент, чем у других, в течение некоторого периода. Но, опять, разве рекламировался бы кто-нибудь, если бы он не переиграл рынок? Существует довольно высокая вероятность инвестиции, ищущей вас, что ее успех полностью вызван случайностью. Такое явление экономисты и страховщики называют неблагоприятной селекцией. Оценка инвестиции, которая ищет вас, требует более строгих стандартов, чем оценка инвестиции, которую ищете вы, вследствие такого пристрастного выбора. Например, идя в когорту, составленную из 10,000 менеджеров, я имею 2/100 шанса для обнаружения поддельного, но оставшегося в живых. Оставаясь дома и отвечая на звонки в мою дверь, шанс ходатайствующей стороны, оказаться поддельной, но оставшейся в живых, ближе к 100%.
Парадокс дня рождения
Наиболее интуитивный способ описать проблему выкапывания данных не статистику - через то, что называется парадоксом дня рождения, хотя это и не настоящий парадокс, а просто причуда восприятия. Если вы встречаете кого-то случайно, есть один шанс из 365.25, что ваши с ним дни рождения совпадают, и значительно меньший шанс совпадения с ним года рождения. Итак, тот же самый день рождения был бы совпадением, которое вы бы обсуждали за обеденным столом. Теперь посмотрим на ситуацию, в которой есть 23 человека в комнате. Каковы шансы, что там окажутся два человека с одинаковым днем рождения? Приблизительно 50%. Поскольку мы не определяем, у каких людей должны совпадать дни рождения, подходят любые пары.
Мир тесен!
Подобное неправильное представление о вероятности возникает в результате случайных столкновений, которые могут произойти с родственниками или друзьями в самых неожиданных местах. "Мир тесен" произносится часто и с удивлением. Но такие события не невероятны, хотя мир намного больше, чем мы думаем. Только мы не проверяем шансы встретить определенного человека, в определенном месте, в определенное время. Скорее, мы просто прикидываем шансы любой встречи, с любым человеком, которого мы когда-либо встречали в прошлом, в любом месте, которое мы посетим в течение интересующего периода. Вероятность последнего значительно выше, возможно, в несколько тысяч раз больше величины другого.
Когда статистик смотрит на выборку данных, чтобы проверить заданное соотношение, скажем, разведать корреляцию между возникновением данного события, типа политического заявления и волатильностью рынка акций, то шансы таковы, что результаты можно принимать всерьез. Но когда в компьютер забрасывают данные, в поисках любого соотношения, с уверенностью можно сказать, что появится ложная связь, типа зависимость рынка акций от длины женских юбок. И точно так же, как совпадения дней рождений, это поразит людей.
Раскапывание данных, статистика и шарлатанство
Какова вероятность для вас выиграть в Нью-джерсийской лотерее дважды? Один шанс из 17 триллионов. И все же это случилось с Эвелин Адаме, кого читатель мог бы считать избранной судьбой. Используя метод, который мы развивали выше, Перси Диаконис и Фредерик Мостеллер, из Гарварда, оценили шансы в 30 к 1, что кто-либо, где-нибудь, полностью неоднозначным способом, станет настолько удачливым!