Читаем Разберись в Data Science полностью

Разберись в Data Science

В зависимости от способа сбора данные могут называться экспериментальными или данными наблюдений.

– Данные наблюдений собираются в процессе пассивного наблюдения человека или компьютера за каким-либо процессом.

– Экспериментальные данные собираются в соответствии с научным методом с использованием предписанной методологии.

Большая часть данных в вашей компании и в мире вообще относится к данным наблюдений. Их примеры – число посещений веб-сайта, объем продаж на определенную дату и количество электронных писем, которые вы получаете каждый день. Иногда такие данные сохраняются с определенной целью, а иногда – просто так. Порой данные этого типа называют «обнаруженными»; очень часто они являются побочным продуктом продаж, платежей, сделанных с помощью кредитных карт, публикации сообщений в Twitter, лайков и тому подобного. То есть они находятся где-то в базе данных, ожидая, когда их обнаружат и используют с какой-то целью. Иногда данные наблюдений собираются потому, что их сбор ничего не стоит. Но иногда их собирают специально – например, с помощью опросов.

Экспериментальные данные собираются не пассивно, а намеренно и методично, чтобы ответить на конкретные вопросы. По этим причинам экспериментальные данные – золотой стандарт для статистиков и исследователей. Чтобы собрать экспериментальные данные, вы должны оказать воздействие на случайным образом выбранный объект. Распространенным примером в данном случае являются клинические испытания лекарств, в ходе которых пациентов случайным образом делят на две группы – группу активного воздействия и контрольную группу. При этом пациенты из первой группы получают настоящее лекарство, а пациенты из второй группы – плацебо. Случайное распределение пациентов позволяет сбалансировать информацию, не представляющую важность для исследования (такую как возраст, социально-экономический статус, вес и так далее), чтобы две группы были максимально похожи во всех отношениях, за исключением факта применения лекарства. Это позволяет исследователям изолировать и измерить эффект препарата, не беспокоясь о потенциальном смешении признаков, способном исказить результат эксперимента[11].

Такой подход может применяться в разных сферах, начиная с клинических испытаний лекарств и заканчивая проведением маркетинговых кампаний. В сфере цифрового маркетинга веб-дизайнеры часто проводят над нами эксперименты, разрабатывая различные макеты веб-страниц или рекламные баннеры. Когда мы делаем покупки в Интернете, за кулисами происходит своеобразное подбрасывание монеты, от результатов которого зависит то, какой именно вариант из двух рекламных объявлений (назовем их А и Б) будет нам показан. После того как сайт посетят несколько тысяч ничего не подозревающих «морских свинок», веб-дизайнеры увидят, какой из вариантов обеспечил больше «кликов». А поскольку объявления А и Б показывались случайным образом, они могут определить, какое из объявлений более эффективно с точки зрения числа кликов, потому что все остальные потенциально смешивающиеся признаки (время суток, тип веб-пользователя и так далее) были сбалансированы путем рандомизации. Подобный метод часто называется «А/Б-тестированием» или «А/Б-экспериментом».

Подробнее о важности этого различия мы поговорим в главе 4 «Сомневайтесь в данных».

<p><emphasis>Структурированные и неструктурированные данные</emphasis></p>

Данные также могут быть структурированными и неструктурированными. Пример структурированных данных – содержимое таблиц, упорядоченное в виде строк и столбцов.

К неструктурированным данным относятся тексты обзоров на Amazon, изображения в социальных сетях, видео на YouTube, аудиофайлы и тому подобное. Преобразование неструктурированных данных в структурированные с целью дальнейшего анализа требует применения специальных методов (см. часть III данной книги).

Читаем Разберись в Data Science полностью

Разберись в Data Science

Похожие книги

Все жанры