Если вы – заинтересованное лицо, менеджер или эксперт в предметной области, сделайте так, чтобы аналитики могли при необходимости с вами связаться. Ведите открытый диалог и будьте готовы к повторениям. Работайте с ними над выработкой корректных предположений. Не позволяйте команде заниматься выуживанием данных без понимания бизнес-контекста. В противном случае они могут пойти по пути, который имеет статистический, но не практический смысл. Одно неверное предположение может поставить под угрозу весь дальнейший анализ.
Мы прекрасно понимаем, что менеджеры не могут быть так же сильно погружены в тонкости проекта, как специалисты по работе с данными. Однако возможности для некоторого улучшения есть всегда. Вам не нужно заниматься микроменеджментом. Просто не игнорируйте эту работу[37].
Освоение исследовательского образа мышления
Существуют десятки инструментов и языков программирования, способных помочь командам аналитиков без особых временных и денежных затрат изучить имеющиеся данные с использованием сводной статистики и визуализаций. Однако EDA следует рассматривать не как набор инструментов или контрольный список вопросов, а скорее как определенный образ мышления, вплетенный в каждый этап работы с данными, который вы можете использовать, даже не будучи профессиональным аналитиком.
Чтобы освоить исследовательский образ мышления и получить общее представление о процессе EDA, мы предлагаем вам рассмотреть краткий сценарий с использованием популярного набора данных Ames Housing Data (Данные о продаже домов в городе Эймс), созданного в образовательных целях[38].
Хотя единственно верного способа анализа этих данных не существует, для того чтобы помочь своей команде прийти к осмысленному выводу, вы можете задать следующие вопросы:
– Позволяют ли данные ответить на поставленный вопрос?
– Обнаружили ли вы какие-либо взаимосвязи?
– Обнаружили ли вы новые возможности в данных?
Давайте рассмотрим сценарий, а затем разберем каждый из этих трех вопросов, причины поиска ответа на них и проблемы, с которыми вы можете столкнуться.
Вы работаете в стартапе, занимающемся недвижимостью, и ваша задача – привлечь трафик на сайт. Однако вам трудно конкурировать с такими технологическими гигантами, как американская компания Zillow, чей знаменитый инструмент оценки стоимости жилья Zestimate®[39] привлекает большое количество людей (и денег) на сайт Zillow.com. Чтобы конкурировать с этим, вашему стартапу нужен собственный инструмент прогнозирования. Итак, перед вами поставлена задача построить модель, которая использует в качестве входных данных информацию о доме, а в качестве выходных данных выдает ориентировочную цену продажи.
Начальник присылает вам набор данных, в котором содержится 80 столбцов. Каждый из них описывает те или иные аспекты сотен жилых домов, проданных в городе Эймс, штат Айова, в период с 2006 по 2011 год.
Такое количество данных ошеломит кого угодно. Тем не менее перечисленные выше вопросы могут помочь вам приступить к их анализу.
Давайте разберем каждый их них.
Позволяют ли данные ответить на поставленный вопрос?
Как бы вам ни хотелось поскорее скормить данные новомодному алгоритму (например, воспользоваться методом глубокого обучения, описанным в главе 12), сначала следует спросить: «Позволяют ли данные ответить на поставленный вопрос?» И для получения ответа на него часто бывает достаточно просто взглянуть на имеющиеся данные.
Вы должны иметь довольно хорошее представление о том, какая информация необходима для определения цены продажи дома, например, общая площадь, количество спален, количество ванных комнат, год постройки и так далее. Эти характеристики чаще всего интересуют потенциальных покупателей жилья, заходящих на ваш веб-сайт. Без их учета предсказание цены дома не кажется разумным.