Читаем Разберись в Data Science полностью

Ваша компания подверглась хакерской атаке, в результате которой 1 % ноутбуков оказались заражены вирусом. Положительный результат теста на наличие вируса – это событие +, отрицательный результат – событие —, инфицирование вирусом – событие В. Вам была предоставлена следующая информация: P(+ | В) = 99 %, P(– | без В) = 99 % и P(В) = 1 %. Другими словами, вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, а вероятность наличия вируса на произвольно выбранном ноутбуке составляет 1 %.

Мы хотели определить вероятность того, что компьютер заражен вирусом, при условии положительного результата теста, P(В | +). Именно здесь возникла вышеописанная путаница. Речь шла о P(В | +), а не о P(+ | В), однако многие люди при выполнении этого упражнения дают ответ, соответствующий P(+ | В) = 99 %.

Вероятности P(В | +) и P(+ | В) не одинаковы, однако они связаны между собой теоремой Байеса – одной из самых известных теорем в теории вероятностей и статистике.

<p><emphasis>Теорема Байеса</emphasis></p>

Теорема Байеса, сформулированная в XVIII веке, – это способ работы с условными вероятностями, который применяется повсюду, начиная с планирования сражений и управления финансами и заканчивая расшифровкой ДНК[55]. Для двух событий A и B теорема Байеса утверждает следующее:

P(A | B) × P(B) = P(B | A) × P(A)

Пусть вас не пугает эта формула. Самое важное – не запомнить ту или иную формулу, а понять, что она делает и почему о ней стоит знать.

Теорема Байеса позволяет связать условную вероятность двух событий. Вероятность наступления события A при условии наступления события B связана с вероятностью наступления события B при условии наступления события A. Они не равны, но связаны приведенным выше уравнением.

Это может пригодиться, когда вам известна одна из условных вероятностей и вы хотите определить другую. Например:

– Медицинские исследователи хотят знать вероятность того, что у человека будет положительный результат скринингового теста на рак при условии, что этот человек болен раком, P(+ | Р). Тогда они смогут создать более точные тесты, позволяющие немедленно приступить к лечению. Разработчики политики хотят знать обратное – вероятность того, что человек болен раком при условии положительного результата скринингового теста, P(Р | +), потому что они не хотят подвергать людей ненужному лечению на основании ложноположительного результата (когда тест показывает наличие болезни при ее отсутствии).

– Прокуроры хотят знать вероятность того, что подсудимый виновен при условии наличия доказательств, P(В | Д). Это зависит от вероятности обнаружения доказательств при условии, что человек виновен, P(Д | В).

– Ваш поставщик услуг электронной почты хочет знать вероятность того, что электронное письмо – спам при условии, что оно содержит фразу «Бесплатные деньги!», P(Спам | Деньги). Используя исторические данные, он может рассчитать вероятность того, что электронное письмо содержит фразу «Бесплатные деньги!» при условии, что оно является спамом, P(Деньги | Спам). (Мы более подробно разберем этот пример в главе 11.)

– В вышеописанном мысленном упражнении вы хотите узнать вероятность наличия вируса на вашем компьютере при условии положительного теста, P(В | +). Вам известно обратное – вероятность положительного результата теста при условии наличия вируса в компьютере P(+ | В).

Все условные вероятности в этих примерах связаны теоремой Байеса. Это хорошая новость. Плохая новость – некоторые части этой теоремы трудно рассчитать. Дело в том, что не все вероятности легко выяснить. Например, вероятность того, что человек болен раком при условии положительного результата скринингового теста, может быть легче узнать, чем вероятность наличия этого заболевания у человека с отрицательным результатом теста.

Чтобы определить, достаточно ли у вас информации для применения теоремы Байеса, можно построить древовидную диаграмму (рис. 6.2). В качестве примера мы используем то же самое мысленное упражнение – и наконец покажем, почему правильный ответ составляет 50 %. Предположим, что в компании 10 000 ноутбуков. Поскольку вероятность положительного результата теста при наличии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков с вирусом мы будем получать отрицательный результат теста, P(– | В) = 1 %. Точно так же, учитывая, что вероятность отрицательного результата теста при отсутствии вируса на ноутбуке составляет 99 %, мы предполагаем, что при тестировании 1 % ноутбуков без вируса мы будем получать положительный результат теста, P(+ | без В) = 1 %.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных