Читаем Разберись в Data Science полностью

Мы привели этот пример, чтобы еще раз подчеркнуть то, что люди часто недооценивают значение вариации, особенно когда имеют дело с небольшими числами. Их ожидания, основанные на интуиции, редко совпадают с реальными результатами расчета вероятностей. Недооценка вариации заставляет людей переоценивать свою уверенность в тех случаях, когда они имеют дело с небольшими значениями. Эта «склонность преувеличивать вероятность того, что малая выборка точно отражает свойства генеральной совокупности»[23] получила название «закона малых чисел».

Мыслить статистически, как и подобает главному по данным, значит помнить о том, что интуиция может сыграть с нами злую шутку. Мы рассмотрим еще несколько подобных примеров и заблуждений в следующих главах.

Табл. 3.2. Возможные комбинации из пяти стоматологов, среди которых четверо согласны с рекламным утверждением

<p><emphasis>Открытия с помощью статистики</emphasis></p>

Статистика часто делится на описательную и индуктивную. Скорее всего, вы уже знакомы с описательной статистикой, даже если не используете это выражение. Описательная статистика – это числа, обобщающие некие данные, значения, которые вы видите в газете или на проекционном экране в офисе. Средние объемы продаж за последний квартал, рост по сравнению с прошлым годом, уровень безработицы и так далее. Такие показатели, как среднее значение, медиана, размах, дисперсия и стандартное отклонение, относятся к описательной статистике, и для их расчета требуются специальные формулы, которые во множестве встречаются в соответствующих учебниках.

Описательная статистика предполагает преднамеренное упрощение данных и позволяет, например, свести всю электронную таблицу с данными о продажах компании в несколько ключевых показателей. В аналогии с шариками описательная статистика предполагает простое суммирование шариков, оказавшихся в вашей руке.

Несмотря на полезность этой операции, мы редко на ней останавливаемся. Мы хотим сделать дополнительный шаг и понять, как мы можем сделать предположение о содержимом мешка на основании информации о шариках, оказавшихся в нашей руке. В этом заключается суть индуктивной статистики, которая позволяет «перейти от мира к данным, а затем от данных обратно к миру»[24]. (Подробнее об этом мы поговорим в главе 7.)

А пока давайте рассмотрим пример. Представьте, как бы вы отреагировали на заголовок «75 % американцев верят в существование НЛО!», зная о том, что этот результат был получен в ходе опроса 20 посетителей Международного музея и исследовательского центра НЛО в Розуэлле, штат Нью-Мексико. Как вы думаете, можно ли на основе подобного исследования сделать вывод об истинном проценте американцев, верящих в НЛО?

Главный по данным отнесся бы к такому результату весьма скептически, поскольку в данном случае показатель 75 % основан на:

– Предвзятой выборке. Люди, посещающие Розуэлл, с гораздо большей вероятностью верят в НЛО, чем среднестатистические жители США.

– Небольшой выборке. Вы уже знаете, какая значительная вариация может наблюдаться в выборке небольших размеров. Нет смысла делать выводы о том, что думают миллионы, на основе мнений 20 человек.

– Основополагающих допущениях. В заголовке говорится о том, что «американцы» верят в НЛО просто потому, что опрос был проведен в Америке. Однако данный музей – международная достопримечательность. Вы не можете быть уверены в том, что участники опроса были американцами.

Такие понятия, как предвзятость и размер выборки, – инструменты статистического вывода, помогающие нам понять, заслуживают ли доверия те статистические данные, которые мы видим или получаем в результате вычисления. Они – важная часть нашего инструментария. Основополагающие допущения также важно учитывать. Если вы хотите мыслить как главный по данным, не стоит принимать за чистую монету допущения, лежащие в основе высказанного вывода.

Сталкиваясь с какими-либо данными в своей работе, старайтесь не принимать предложенную информацию на веру и не прислушиваться к собственной интуиции.

Думайте статистически. Задавайте вопросы. Именно это делают главные по данным. В следующих главах вы найдете вопросы, которые помогут вам освоить статистический образ мышления.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных