Читаем Разберись в Data Science полностью

В данном случае взаимосвязь между общим качеством дома и его ценой кажется интуитивно понятной. Более качественные дома обычно продаются по более высокой цене. Мы можем обнаружить дом за 200 000 долларов, общее качество которого было оценено на 10 (нижний конец линии). Однако разумно предположить, что он был продан дешевле, чем другие дома с оценкой 10 из-за прочих факторов. Специалистам по работе с данными следует проверять такого рода информацию.

Столбиковые графики (рис. 5.3) отображают распределение категориальных данных.

Рис. 5.3. Столбиковый график, показывающий количество домов с разными типами электроустановок

Не все виды визуализаций могут показаться интересными на первый взгляд. Тем не менее ознакомиться с ними все равно стоит – хотя бы для того, чтобы подтвердить (или оспорить) ответ на вопрос: «Имеют ли данные интуитивный смысл?» Согласно графику на рис. 5.3, почти все дома имеют одинаковое значение указанного признака. Однако с точки зрения поставленной перед вами задачи эта информация полезна. Поскольку значение этой переменной одинаковое для большинства домов, она, вероятно, не будет существенно влиять на разницу в их стоимости.

Рис. 5.4. Линейная диаграмма, отражающая количество домов, проданных в разные месяцы

На рис. 5.4 показана линейная диаграмма, отражающая количество домов, проданных в разные месяцы. Явление, при котором продажи домов увеличиваются летом и сокращаются зимой, называется сезонностью. Линейные диаграммы хорошо отражают такие тенденции.

На следующем этапе мы можем изучить диаграмму рассеяния, демонстрирующую зависимость цены дома от его размера (площади первого этажа в квадратных футах).

Зависимость, отображенная на рис. 5.5, интуитивно понятна. Большие дома обычно стоят дороже. Разумеется, из этого правила есть исключения: иногда небольшие дома стоят дороже, чем большие. Вариации есть всегда, но они не отменяют общую тенденцию. И поскольку в конечном итоге мы пытаемся предсказать цену продажи дома, его площадь – весьма полезная информация.

Рис. 5.5. Диаграмма рассеяния, отражающая площадь в квадратных футах и цену продажи

В этом разделе мы лишь в общих чертах обсудили различные способы визуализации данных и то, какую информацию можно быстро получить с их помощью. Если вы хотите глубже изучить методы использования визуализации в процессе исследования данных, мы рекомендуем ознакомиться со следующими книгами:

– Now You See it: Simple Visualization Techniques for Quantitative Analysis, Stephen Few (Analytics Press, 2009);

– The Visual Display of Quantitative Information, Edward Tufte (Graphics Press, 2011).

<p><emphasis>Осторожно: выбросы и отсутствующие значения</emphasis></p>

В каждом наборе данных будут наблюдаться аномалии, выбросы и пропущенные значения. Что с ними можно сделать?

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных