Читаем Разберись в Data Science полностью

Скорее всего, второе. Это хорошо, потому что неделю спустя при опросе еще 1000 студентов утвердительный ответ дали 670 человек. Разумеется, 655 и 670 – это весьма близкие значения, и, возможно, вы полагаете, что проведение этих опросов позволило вам приблизиться к истинной доле студентов, готовых утвердительно ответить на задаваемый вопрос. Однако, если бы вы провели этот опрос еще раз, вы получили бы разные ответы вследствие вариации выборки. И с этим ничего нельзя сделать, кроме как представить полученные результаты в контексте. Опросные агентства понимают это и указывают «погрешность» результатов опроса в пределах +/– 3 %, которая отражает неопределенность, обусловленную вариацией и случайностью.

В случае с первым опросом значение 65,5 % – точечная оценка, и мы могли бы представить результаты как 65,5 % +/– 3 %, или (62,5 %, 68,5 %). Интервал (62,5 %, 68,5 %) называется доверительным и является примером индуктивной статистики. Он позволяет получить некоторые сведения об окружающем мире на основе информации, предоставленной выборкой. Мы надеемся, что этот доверительный интервал отражает истинный процент всех студентов вводных курсов по статистике, которые устали от примеров с опросами.

Мораль: при использовании выборок наблюдаются вариации, делающие неопределенной вашу оценку количества студентов вводных курсов по статистике, уставших от примеров с опросами. К счастью, доверительные интервалы определяют диапазон правдоподобных значений, в которых может лежать их истинная доля, то есть дают вам некоторое пространство для маневра.

<p><emphasis>Больше данных – больше доказательств</emphasis></p>

Если в процессе совершения покупок в Интернете вы видите продукт на сайте Amazon с рейтингом в 1 звезду, основанном на единственном обзоре, вы можете проигнорировать этот обзор – мнение одного человека. Однако если вы увидите продукт с низким рейтингом, основанным на сотнях отзывов (скажем, на 300), ваше мнение будет иным. Существует консенсус, согласно которому данный продукт является некачественным. Поэтому вы выбираете другой продукт – с рейтингом 4,9 звезды, основанном на 200 отзывах[58].

Это говорит о том, что вы уже понимаете, как количество точек данных, лежащих в основе рейтинга товара на Amazon, влияет на ваше доверие к нему. Размер выборки мы будем обозначать буквой N. Вы не испытываете доверия к рейтингу, основанному на одном обзоре (N = 1), но вас способны убедить рейтинги, основанные на выборках размером N = 300 и N = 200. Как вы уже догадались, размер выборки играет огромную роль в статистическом выводе. В самом деле, кажется маловероятным, хотя и не невозможным, чтобы продукт с рейтингом 4,9 звезды и N = 200 оказался полным хламом. А как насчет продукта с N = 1? Его обзор мог быть написан случайным интернет-троллем.

Мораль: размер выборки имеет значение. Больше данных – больше доказательств. (Мы же говорили, что это интуитивно понятно.)

<p><emphasis>Бросьте вызов статус-кво</emphasis></p>

По сути, наука и создание новых знаний предполагает бросание вызова статусу-кво. Когда накапливается достаточно доказательств в пользу того, что прежний образ мышления ошибочен, мы его адаптируем. Это же верно и для статистического вывода.

Простейшая аналогия – презумпция невиновности в американской системе уголовного права. Обвиняемые «невиновны до тех пор, пока их вина не будет доказана» (статус-кво). Подсудимый объявляется «виновным» лишь тогда, когда доказательства вне всяких обоснованных сомнений указывают на ошибочность статус-кво. Бремя доказывания того, что первоначальное предположение о невиновности подсудимого неверно, возлагается на сторону обвинения.

Табл. 7.1. Вопросы, нулевые гипотезы (H0) и альтернативные гипотезы (Ha)

Исследователи, ученые и компании используют эту логику для создания новых знаний, направленных на улучшение общества или бизнеса. Вот как это работает. Они начинают с постановки вопроса[59], подобного тем, которые перечислены в табл. 7.1, и используют его для так называемой проверки гипотезы.

Статус-кво называется нулевой гипотезой, которая обычно обозначается как H0. Как правило, ее выбирают в надежде впоследствии отбросить в пользу нового знания, называемого альтернативной гипотезой, обозначаемой как Ha. Разумеется, нулевая и альтернативная гипотеза зависят от заданного вопроса. В табл. 7.1 показано, как общие вопросы могут быть преобразованы в соответствующие гипотезы. Исследователи стремятся найти доказательства, позволяющие отвергнуть нулевую гипотезу в пользу альтернативной.

Обратите особое внимание на логику проверки гипотез, представленную в табл. 7.1. Какой бы правдоподобной ни казалась гипотеза, изначально вы предполагаете, что она неверна (то есть отталкиваетесь от статус-кво). При наличии достаточного количества доказательств, говорящих о том, что нулевая гипотеза (H0) очень маловероятна, вы отклоняете ее в пользу альтернативной (Ha).

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных