Читаем Разберись в Data Science полностью

Мы говорим о необработанных данных – исходном материале, на основе которого рассчитываются все статистические показатели, строятся модели машинного обучения и создаются визуализации, отображаемые на информационных панелях. Это данные, которые хранятся в ваших электронных таблицах или базах данных. Если эти необработанные данные плохие, то никакие методы очистки, статистической обработки или машинного обучения не помогут это скрыть. В качестве резюме для данной главы лучше всего подходит фраза, которую вы, вероятно, уже слышали: «Мусор на входе, мусор на выходе». В этой главе мы перечислим те типы вопросов, которые вам следует задать, чтобы оценить качество имеющихся у вас данных.

Мы выделили три основных и несколько уточняющих вопросов, которые помогут вам поспорить с имеющимися данными.

– Какова история происхождения этих данных?

• Кто собирал данные?

• Как собирались эти данные?

– Являются ли данные репрезентативными?

• Имеет ли место предвзятость выборки?

• Что вы сделали с выбросами?

– Какие данные я не вижу?

• Как вы поступили с отсутствующими значениями?

• Позволяют ли данные измерить то, что вас интересует?

В следующих разделах мы подробно рассмотрим каждый вопрос, поговорим о причинах, по которым его следует задавать, и о том, какие проблемы он обычно позволяет обнаруживать.

Однако прежде, чем это сделать, мы предлагаем вам выполнить одно мысленное упражнение.

<p>Что бы вы сделали?</p>

Вы отвечаете за крупный проект в технологической компании, которая находится на пороге прорыва в области создания беспилотных автомобилей. Это важный момент для вас и вашей работы, не говоря уже о карьере. Успешная демонстрация вашего продукта обещает искупить все сверхурочные часы работы, чрезмерно оптимистичные обещания, данные руководству, задержки в реализации проекта и бюджетные затраты на исследования и разработки.

И сейчас вечер накануне презентации прототипа нового автомобиля.

Руководители компании, десятки сотрудников, потенциальные инвесторы и представители СМИ проехали сотни километров, чтобы засвидетельствовать то, что может стать переломным моментом в истории автомобилестроения. Однако поздно вечером ваш старший инженер сообщает, что на завтра синоптики прогнозируют 31 °F (–1 °C). По словам инженера, низкие температуры могут поставить под угрозу жизненно важные компоненты инновационной системы автономного вождения прототипа автомобиля. Дело не в том, что он уверен в непременном возникновении проблемы. Просто система, которую в будущем планируется адаптировать и испытать при отрицательных температурах, еще не была опробована на морозе, так что демонстрация рискует превратиться в публичную и дорогостоящую катастрофу.

Однако перенести подобное мероприятие дорого и непросто. Если презентация не состоится завтра, то идеальных условий придется ждать месяцами. Ваша компания потратила большую часть предыдущего года на создание ажиотажа вокруг этого момента. Если презентацию перенести, уровень заинтересованности уже не будет таким высоким.

Вы просите инженера предоставить данные, заставляющие его беспокоиться о возможном повреждении внутренних компонентов автомобиля из-за низких температур. Он показывает вам график, представленный на рис. 4.1.

По словам инженера, компания провела 23 тест-драйва при различных температурах, и в ходе семи из них (отмеченных на графике) имел место выход из строя критической части системы самонавигации. В ходе двух тест-драйвов из строя вышли сразу два критических компонента.

Рис. 4.1. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов

Ваши инженеры учли вероятность подобных отказов, поэтому они обеспечили избыточность. Каждая система предусматривает шесть критических компонентов (вот почему максимальное значение на вертикальной оси – 6). Наличие запасных частей означает, что даже в случае поломки некоторых из них машина продолжит функционировать. В ходе 23 тест-драйвов из строя ни разу не вышло сразу более двух компонентов, поэтому и проблем с использованием автомобиля ни разу не возникло. В обоих случаях, имевших место при температуре 53 °F (12 °C) и 75 °F (24 °C), машина так и не остановилась. Минимальная температура, при которой проводилось испытание, составляла 53 °F (12 °C), а максимальная – 81 °F (27 °C).

«Однако мы не тестировали систему при более низких температурах», – говорят инженеры. И вы понимаете, что они обеспокоены.

Но как бы вы ни старались, вы не можете заметить связь между температурой и вероятностью отказа компонентов за исключением того, что все они имели место при температурах значительно выше 30 °F (–1 °C). Вам трудно представить сценарий, при котором низкие температуры могут вывести из строя более двух компонентов из шести, учитывая данные, полученные в ходе 23 тест-драйвов. Кроме того, машина вполне может продолжать движение и при наличии четырех исправных критических компонентов. Если во время демонстрации выйдет из строя максимум два, узнает ли об этом кто-нибудь вообще?

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных