Читаем Разберись в Data Science полностью

Многие крупные компании считают, что все их данные берутся из внутреннего источника. Например, компания, использующая данные о рабочей силе (то есть данные, основанные на результатах опросов сотрудников и другой соответствующей информации), на самом деле может использовать данные, собранные третьей стороной и принадлежащие ей. Потребление этих данных может происходить через портал компании. Это может создать иллюзию того, что данные были собраны компанией и принадлежат ей, даже если это не так.

Мы хотим, чтобы вы точно определили того, кто собирал данные. Как главный по данным, вы должны убедиться в том, что полученные извне данные надежны и имеют отношение к поставленной бизнес-задаче. Большую часть данных, полученных из сторонних источников, довольно трудно использовать в том формате, в котором они предоставляются. Вам или кому-то из вашей команды придется преобразовать данные, полученные от третьей стороны, в нужный формат и придать им необходимую структуру, чтобы привести их в соответствие с уникальными информационными активами вашей компании.

<p><emphasis>Как собирались эти данные?</emphasis></p>

Вам также необходимо выяснить, как собирались данные. Этот вопрос поможет вам выявить возможные недопустимые выводы, сделанные об этих данных, а также этические проблемы, связанные с процессом их сбора.

Напомним, что существуют два основных метода сбора данных – наблюдение и эксперимент.

Наблюдение – это пассивный способ сбора данных. Примерами данных наблюдений могут быть количество посетителей веб-сайтов, посещаемость занятий и объем продаж. Экспериментальные данные собираются в условиях эксперимента при участии групп активного воздействия и принятии проверенных временем мер предосторожности, позволяющих обеспечить целостность и избежать искажения результатов из-за смешивающихся переменных. Экспериментальные данные – это золотой стандарт. Благодаря тщательному планированию эксперимента, направленному на обеспечение надежности результатов, эти данные позволяют выявлять причинно-следственные связи. Например, экспериментальные данные могут помочь ответить на следующие вопросы[29]:

– Если мы дадим пациенту новое лекарство, поможет ли это вылечить его?

– Если мы дадим 15 %-ную скидку на наш продукт, приведет ли это к росту продаж в следующем квартале?

Однако большая часть бизнес-данных относится к данным наблюдений. Для установления причинно-следственных связей не стоит использовать исключительно данные наблюдений[30]. Поскольку такие данные не были собраны в ходе тщательно продуманного эксперимента, их полезность и основанные на них результаты должны оцениваться в соответствующем контексте. Любые утверждения о причинно-следственной связи, основанные на данных наблюдений, следует воспринимать скептически.

Задав вопрос о способе сбора данных, вы сможете понять, насколько обоснован вывод о наличии причинно-следственной связи. На самом деле некорректное установление причинности – весьма существенная проблема, к которой нам еще не раз предстоит вернуться в следующих главах книги.

Казалось бы, для решения этой проблемы достаточно как можно чаще использовать экспериментальные данные. Однако их сбор не всегда возможен, финансово оправдан и даже этичен. Например, если бы вам поручили изучить влияние «вейпинга» (курения электронных сигарет) на подростков, вы не смогли бы случайным образом разделить испытуемых на экспериментальную и контрольную группы и заставить участников первой группы курить электронные сигареты во имя науки. Это было бы неэтично.

Как главный по данным, вы должны работать с имеющимися у вас данными, одновременно опосредуя их способность влиять на принимаемые бизнес-решения. У некоторых компаний и отделов есть ресурсы, позволяющие проверить многообещающие данные наблюдений с помощью серьезных экспериментов. Однако далеко не все бизнес-проблемы поддаются экспериментальному анализу.

<p>Являются ли данные репрезентативными?</p>

Вы должны убедиться в том, что имеющиеся у вас данные отражают характеристики интересующей вас совокупности. Если вас интересуют покупательские привычки американских подростков, то ваш набор данных должен отражать покупательские привычки всех подростков, живущих в США.

Индуктивная статистика существует именно потому, что у нас редко (если вообще когда-либо) есть все данные, необходимые для решения стоящей перед нами проблемы. Мы вынуждены опираться на выборки[31]. Однако если выборка нерепрезентативна, то выводы, сделанные на ее основе, не будут отражать реальные характеристики генеральной совокупности. Чтобы убедиться в репрезентативности данных, задайте следующие вопросы:

– Имеет ли место предвзятость выборки?

– Что вы сделали с выбросами?

<p><emphasis>Имеет ли место предвзятость выборки?</emphasis></p>
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных