Читаем Разберись в Data Science полностью

Всегда безопаснее предполагать, что между двумя коррелирующими переменными «нет причинно-следственной связи», если только кто-то не провел эксперимент, доказывающий обратное. Однако не стоит впадать в крайности. Мы по собственному опыту знаем, что иногда компании, академики и СМИ предполагают наличие причинно-следственной связи там, где этого делать не следует, а иногда наоборот – отвергают важную взаимосвязь, приняв ее за ошибку. Пример подобного необоснованного игнорирования взаимосвязи описан в следующей врезке.

Курение и рак легких

Рональд Э. Фишер, один из ведущих статистиков XX века, участвовавший в разработке ряда методов, описанных в этой книге, довольно скептически относился к исследованиям, связывавшим курение табака с заболеваемостью раком.

Больше всего Фишера заботили смешивающиеся переменные. Например, что, если некоторые люди генетически предрасположены к развитию рака легких и курят для того, чтобы облегчить симптомы болезни? По словам Фишера, ранние исследования рисков употребления табака содержали «издавна известную ошибку, выражавшуюся в том, что вывод о причинности делался на основе корреляции»[45].

Однако теперь мы точно знаем, что связь между ними есть. Итак, нам следует проявлять осторожность не только для того, чтобы не увидеть причинность там, где ее нет, но и чтобы не проигнорировать ее там, где она пока еще не доказана.

<p>Обнаружили ли вы новые возможности в данных?</p>

Разведочный анализ данных – это не просто процесс, позволяющий лучше разобраться в данных и наметить путь решения стоящих перед нами проблем. Это еще и шанс найти дополнительные возможности в этих данных, которые могут оказаться ценными для вашей организации. Дата-сайентист может обнаружить что-то интересное или странное в наборе данных и сформулировать проблему.

Однако вы не сможете оценить важность найденного вами решения до тех пор, пока не выполните действия, описанные в главе 1 «В чем суть проблемы?»

<p>Подведение итогов</p>

Чтобы стать главным по данным, вам необходимо постоянно заниматься разведочным анализом данных. Это позволит вам:

– Наметить более четкий путь решения проблемы.

– Уточнить исходную бизнес-задачу с учетом выявленных в данных ограничений.

– Сформулировать новые проблемы, которые можно решить с помощью этих данных.

– Отменить проект. Хотя это не приносит удовлетворения, EDA считается успешным, если он предотвращает трату времени и денег на решение тупиковой проблемы.

Мы провели вас через весь процесс, используя набор данных о ценах на недвижимость (к которому вернемся в главе 9 для построения предсказательной модели), и рассказали о тех препятствиях, с которыми вы можете столкнуться.

Содержание этой главы предполагает ваше участие во всех этапах процесса EDA. Однако иногда это невозможно, особенно для старших руководителей, курирующих множество проектов. Тем не менее пропуск ранних этапов не освобождает главных по данным от обязанности придерживаться исследовательского образа мышления. Подключаясь к проекту на завершающих этапах его реализации, спросите аналитиков, почему они выбрали тот или иной метод анализа данных и с какими проблемами столкнулись. Так вы можете узнать о предположениях, которые сами бы не сделали.

<p>Глава 6</p><p>Изучайте вероятности</p>

«Представления многих людей о вероятности настолько скудны, что они допускают только [одно] из двух ее значений: 50 на 50 и 99 %, то есть абсолютную случайность и практически полную уверенность»

– Джон Аллен Паулос, математик и автор книги «Математическое невежество и его последствия»[46]
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных