Читаем Разберись в Data Science полностью

В зависимости от способа сбора данные могут называться экспериментальными или данными наблюдений.

– Данные наблюдений собираются в процессе пассивного наблюдения человека или компьютера за каким-либо процессом.

– Экспериментальные данные собираются в соответствии с научным методом с использованием предписанной методологии.

Большая часть данных в вашей компании и в мире вообще относится к данным наблюдений. Их примеры – число посещений веб-сайта, объем продаж на определенную дату и количество электронных писем, которые вы получаете каждый день. Иногда такие данные сохраняются с определенной целью, а иногда – просто так. Порой данные этого типа называют «обнаруженными»; очень часто они являются побочным продуктом продаж, платежей, сделанных с помощью кредитных карт, публикации сообщений в Twitter, лайков и тому подобного. То есть они находятся где-то в базе данных, ожидая, когда их обнаружат и используют с какой-то целью. Иногда данные наблюдений собираются потому, что их сбор ничего не стоит. Но иногда их собирают специально – например, с помощью опросов.

Экспериментальные данные собираются не пассивно, а намеренно и методично, чтобы ответить на конкретные вопросы. По этим причинам экспериментальные данные – золотой стандарт для статистиков и исследователей. Чтобы собрать экспериментальные данные, вы должны оказать воздействие на случайным образом выбранный объект. Распространенным примером в данном случае являются клинические испытания лекарств, в ходе которых пациентов случайным образом делят на две группы – группу активного воздействия и контрольную группу. При этом пациенты из первой группы получают настоящее лекарство, а пациенты из второй группы – плацебо. Случайное распределение пациентов позволяет сбалансировать информацию, не представляющую важность для исследования (такую как возраст, социально-экономический статус, вес и так далее), чтобы две группы были максимально похожи во всех отношениях, за исключением факта применения лекарства. Это позволяет исследователям изолировать и измерить эффект препарата, не беспокоясь о потенциальном смешении признаков, способном исказить результат эксперимента[11].

Такой подход может применяться в разных сферах, начиная с клинических испытаний лекарств и заканчивая проведением маркетинговых кампаний. В сфере цифрового маркетинга веб-дизайнеры часто проводят над нами эксперименты, разрабатывая различные макеты веб-страниц или рекламные баннеры. Когда мы делаем покупки в Интернете, за кулисами происходит своеобразное подбрасывание монеты, от результатов которого зависит то, какой именно вариант из двух рекламных объявлений (назовем их А и Б) будет нам показан. После того как сайт посетят несколько тысяч ничего не подозревающих «морских свинок», веб-дизайнеры увидят, какой из вариантов обеспечил больше «кликов». А поскольку объявления А и Б показывались случайным образом, они могут определить, какое из объявлений более эффективно с точки зрения числа кликов, потому что все остальные потенциально смешивающиеся признаки (время суток, тип веб-пользователя и так далее) были сбалансированы путем рандомизации. Подобный метод часто называется «А/Б-тестированием» или «А/Б-экспериментом».

Подробнее о важности этого различия мы поговорим в главе 4 «Сомневайтесь в данных».

<p><emphasis>Структурированные и неструктурированные данные</emphasis></p>

Данные также могут быть структурированными и неструктурированными. Пример структурированных данных – содержимое таблиц, упорядоченное в виде строк и столбцов.

К неструктурированным данным относятся тексты обзоров на Amazon, изображения в социальных сетях, видео на YouTube, аудиофайлы и тому подобное. Преобразование неструктурированных данных в структурированные с целью дальнейшего анализа требует применения специальных методов (см. часть III данной книги).

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных