Крайне небольшие эффекты могут быть обнаружены при исследовании большой выборки. Если вы видите только
Вы уже почти забыли о стажере. Вам интересно, привела ли его работа к повышению уровня удовлетворенности клиентов в этом квартале по сравнению с предыдущим. Чтобы представить вам доказательства улучшения, стажер сформулировал нулевую и альтернативную гипотезы следующим образом:
–
–
В конце каждого квартала проводился опрос с использованием выборки, состоящей из 100 клиентов. В предыдущем квартале о своей готовности рекомендовать компанию сообщили 50/100 клиентов, а в этом квартале – 65/100. Являются ли результаты статистически значимыми при уровне 5 %?
С помощью статистического теста[70] стажер вычисляет
Но так ли это? Корреляция не доказывает наличие причинно-следственной связи. Уровень удовлетворенности клиентов мог повыситься благодаря целому ряду факторов, и если только не был проведен спланированный эксперимент и не были тщательно измерены различия между старым подходом и идеями стажера, то у вас нет оснований предполагать наличие причинно-следственной связи.
Подведение итогов
В этой главе вы узнали о статистическом выводе и о том, как можно оспаривать предоставляемые вам статистические данные. В частности, вы познакомились с вопросами, которые стоит задавать по поводу тех или иных статистических утверждений, а также узнали, почему это важно. Вот эти вопросы:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Вооружившись этим списком, вы сможете эффективно оспаривать, понимать и оценивать статистические показатели, с которыми сталкиваетесь.
Часть III
Освойте набор инструментов дата-сайентиста
Скорее всего, взять в руки эту книгу вас побудили такие термины, как машинное обучение, искусственный интеллект и глубокое обучение. В этой части мы собираемся лишить их ореола таинственности.
Сфера данных, как бы мы ее ни назвали, постоянно изменяется. Однако фундаментальные концепции и инструменты существуют на протяжении десятилетий и лежат в основе самых актуальных тенденций, включая анализ текста и изображений. В части III вы найдете высокоуровневое описание этих концепций и методов.
Эта часть состоит из следующих глав:
Глава 8. Ищите скрытые группы.
Глава 9. Освойте модели регрессии.
Глава 10. Освойте модели классификации.
Глава 11. Освойте текстовую аналитику.
Глава 12. Концептуализируйте глубокое обучение.
Вы также узнаете о распространенных ошибках и ловушках, в которые попадают даже опытные аналитики.
Глава 8
Ищите скрытые группы
«Если вы проанализируете данные достаточно тщательно, то сможете отыскать послания Бога»
Представьте, что вам звонит друг и просит помочь категоризовать его музыкальную коллекцию, представляющую собой набор винтажных виниловых пластинок. Вы соглашаетесь.
По дороге вы задумываетесь о способе организации такой коллекции. Начать можно с очевидных категорий, например, с музыкальных жанров и поджанров. Также можно сгруппировать музыкальные композиции по периодам, в которые они были выпущены. Эту информацию легко найти на обложке альбома.
Однако, когда вы приезжаете к своему другу, он вручает вам высокую стопку черных виниловых пластинок без обложек.
Ваш друг говорит, что купил эти пластинки на гаражной распродаже и понятия не имеет о жанрах, исполнителях или периодах выхода записанных на них композиций. Вы вынуждены отказаться от своих предвзятых представлений о способах классификации записей, поскольку у вас нет обложек альбомов, на которые вы могли бы опереться при их группировке. Задача категоризации пластинок внезапно оказывается намного сложнее, чем вы предполагали.