Тем не менее почти нет шансов на то, что алгоритм отметит невиновного человека как террориста. В то же время почти все люди, которых выделяет алгоритм, невиновны. Похоже на парадокс, но на самом деле это не так. Таково положение дел. Если вы сделаете глубокий вдох и внимательно присмотритесь к матрице, вы все поймете.
Суть вот в чем. На самом деле существуют два вопроса, которые вы можете задать. На первый взгляд они кажутся одинаковыми, но это не так.
Эти вопросы отличаются друг от друга, поскольку на них даются разные ответы. По-настоящему разные ответы. Мы уже видели, что ответ на первый вопрос – около 1 из 2000, тогда как ответ на второй вопрос – 99,99 %. И именно ответ на второй вопрос вам нужен.
Величины, о которых идет речь в этих вопросах, обозначаются термином «условные вероятности»: «вероятность того, что имеет место
Если сказанное кажется вам знакомым, так и должно быть: это именно та проблема, с которой мы столкнулись, когда рассматривали доказательство от маловероятного;
«Вероятность, что наблюдаемый результат эксперимента будет иметь место при условии, что нулевая гипотеза правильна».
Однако нам
«Вероятность, что нулевая гипотеза правильна при условии наблюдения определенного результата эксперимента».
Опасность возникает именно в случае, когда мы путаем вторую величину с первой. И такая путаница имеет место повсюду, не только в научных исследованиях. Когда окружной прокурор наклоняется к жюри присяжных и объявляет «Есть один шанс из пяти миллионов, повторяю, один шанс из пяти миллионов, что ДНК невиновного человека совпадет с ДНК, обнаруженной на месте преступления», он отвечает на первый вопрос: «Какова вероятность того, что невиновный человек выглядит виновным?» Однако работа жюри присяжных в том, чтобы найти ответ на второй вопрос: «Какова вероятность, что на первый взгляд виновный подсудимый невиновен?» На этот вопрос окружной прокурор уже не поможет им ответить[147].
Пример с Facebook и террористами объясняет, почему плохие алгоритмы должны вызывать не только такое же беспокойство, что и хорошие, но и большее. Мало приятного в том, что Target знает о вашей беременности. Гораздо хуже, если вы не террорист, но Facebook считает вас таковым.
Может быть, вы думаете, что Facebook никогда не станет составлять список потенциальных террористов (налоговых мошенников, педофилов) или делать такой список общедоступным, в случае если он все-таки будет создан. Зачем им это надо? На чем здесь можно заработать деньги? Может, так и есть. Однако Агентство национальной безопасности США также собирает данные о жителях Америки, являются ли они пользователями Facebook или нет. Происходит нечто вроде составления черного списка – если только вы не думаете, что в АНБ регистрируют метаданные о всех наших телефонных звонках лишь ради того, чтобы давать операторам мобильной связи полезные советы, где им следует построить дополнительные сигнальные вышки. Большие данные – не магическая сила; они не говорят федералам, кто террорист, а кто нет. Но, чтобы составлять длинные списки людей, по тем или иным причинам отмеченных красным флажком, отнесенных к группе повышенного риска или обозначенных как «подозреваемые», – никакого волшебства не нужно. Большинство людей, включенных в такие списки, не имеют никакого отношения к терроризму. Вы уверены, что не принадлежите к их числу?
Парапсихологическое радио и правило Байеса
Чем обусловлен этот явный парадокс красного списка террористов? Почему механизм
Но как это сделать?