Читаем Разберись в Data Science полностью

<p><emphasis>Каков контекст этой статистики?</emphasis></p>

Контекст статистики не менее важен, чем сами показатели. Услышав фразу: «Продажи выросли на 10 %!» – вы должны спросить: «По сравнению с чем?»

Рассмотрим следующий пример. Маркетолог-аналитик сообщает своему начальнику о том, что продажи выросли на 10 % по сравнению с прошлым кварталом, но не говорит о том, что объем продаж его крупнейшего конкурента увеличился на 15 %. Начальник наверняка предпочел бы знать этот дополнительный контекст. Однако попытки обобщить информацию могут привести к путанице. Главные по данным должны выяснять контекст и базовые показатели для проведения сравнения.

Рассмотрим другой пример. Предположим, новая реклама на YouTube повышает вероятность клика по объявлению на 50 %. Без знания контекста это звучит весьма впечатляюще. Однако если рассматривать данный статистический показатель в контексте, становится ясно, что кликабельность рекламы (отношение числа людей, щелкнувших по объявлению, к числу людей, просмотревших рекламу) улучшился с 0,1 до 0,15 % (то есть с 10 из 10 000 до 15 из 10 000) или на 0,05 % в абсолютных величинах. Данный результат следует преподносить именно так. Указание относительного процентного изменения (0,0015–0,0001)/0,0001 × 100 = 50 % создает неверное представление о нем.

Вероятно, в своей работе вы уже сталкивались с подобными примерами, когда вы видите точный, однозначный и впечатляющий статистический показатель, но не знаете, что он на самом деле означает. В таких случаях смело спрашивайте: «Каков контекст этой статистики?»

<p><emphasis>Каков размер выборки?</emphasis></p>

К этому моменту вы уже должны понимать важность размера выборки. Небольшое значение N, как правило, сопровождается большим количеством вариаций. Нет проблем: вы просто добавляете дополнительные данные. При достаточном количестве данных результаты будут менее вариативными, верно? В эпоху «больших данных» у вас может возникнуть соблазн просто сделать значение N настолько огромным, чтобы выборка учитывала все вероятности.

Однако в тех случаях, когда значение N очень велико, легко подумать, что N = ВСЕ, то есть в вашем распоряжении имеются все возможные точки данных. Однако подобное допущение не освобождает вас от необходимости задумываться о качестве данных и предвзятости. (Вспомните уроки из главы 4.) Действительно ли ваша выборка охватывает людей, относящихся к интересующей вас категории?

Как отмечается в книге «Data Science. Инсайдерская информация для новичков»:[62]

Мы утверждаем, что предположение о том, что N=ВСЕ, – одна из самых больших проблем, с которыми мы сталкиваемся в эпоху больших данных. Прежде всего это способ исключения голосов людей, у которых нет времени, энергии или возможностей для участия во всех неформальных (возможно, даже необъявленных) выборах.

Исключение голосов относится не только к выборам. Нуждающиеся могут быть по ошибке лишены права на получение скидок на еду или одежду; на участие в опросах, касающихся государственной политики; или их голоса просто не будут учтены. Может показаться, что достаточно большой набор точно отражает характеристики популяции, однако размер выборки – это еще не все. Хуже того, в «больших данных» можно очень легко обнаружить ложные зависимости. Если препарировать данные определенным образом, в них всегда можно найти что-то интересное.

В тех редких случаях, когда N действительно равно ВСЕЙ популяции (перепись), можете считать, что вам повезло. Вам не придется заниматься построением статистического вывода, потому что в показателях описательной статистики не будет неопределенности при условии корректного сбора данных.

<p><emphasis>Что вы тестируете?</emphasis></p>

В основе любого статистического вывода, с которым вы сталкиваетесь на рабочем месте или в новостях, лежит (как мы надеемся) конкретный вопрос, который можно проверить с помощью данных. Не позволяйте специалисту по работе с данными предоставлять статистический показатель, не озвучивая при этом лежащий в его основе вопрос. Убедитесь в том, что ваша команда знает о причинах, по которым та или иная статистика вообще создается. Задайте вопрос: «Что вы тестируете?» – и попросите предоставить на него четкий ответ, сформулированный в нестатистических терминах[63].

<p><emphasis>Какова нулевая гипотеза?</emphasis></p>

В этом квартале ваш стажер в MegaCorp тесно сотрудничал с отделом обслуживания клиентов, предлагая идеи для повышения уровня их удовлетворенности. Вы хотите оценить эффективность его идей с помощью простого опроса клиентов MegaCorp, состоящего из единственного вопроса: «Вы бы порекомендовали нас другу?»

Стажер формализует тест и выдвигает нулевую гипотезу: «Уровень рекомендаций в этом квартале не ниже, чем в прошлом». Таким образом:

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных