В данном случае взаимосвязь между общим качеством дома и его ценой кажется интуитивно понятной. Более качественные дома обычно продаются по более высокой цене. Мы можем обнаружить дом за 200 000 долларов, общее качество которого было оценено на 10 (нижний конец линии). Однако разумно предположить, что он был продан дешевле, чем другие дома с оценкой 10 из-за прочих факторов. Специалистам по работе с данными следует проверять такого рода информацию.
Столбиковые графики (рис. 5.3) отображают распределение категориальных данных.
Рис. 5.3. Столбиковый график, показывающий количество домов с разными типами электроустановок
Не все виды визуализаций могут показаться интересными на первый взгляд. Тем не менее ознакомиться с ними все равно стоит – хотя бы для того, чтобы подтвердить (или оспорить) ответ на вопрос: «Имеют ли данные интуитивный смысл?» Согласно графику на рис. 5.3, почти все дома имеют одинаковое значение указанного признака. Однако с точки зрения поставленной перед вами задачи эта информация полезна. Поскольку значение этой переменной одинаковое для большинства домов, она, вероятно, не будет существенно влиять на разницу в их стоимости.
Рис. 5.4. Линейная диаграмма, отражающая количество домов, проданных в разные месяцы
На рис. 5.4 показана линейная диаграмма, отражающая количество домов, проданных в разные месяцы. Явление, при котором продажи домов увеличиваются летом и сокращаются зимой, называется сезонностью. Линейные диаграммы хорошо отражают такие тенденции.
На следующем этапе мы можем изучить диаграмму рассеяния, демонстрирующую зависимость цены дома от его размера (площади первого этажа в квадратных футах).
Зависимость, отображенная на рис. 5.5, интуитивно понятна. Большие дома обычно стоят дороже. Разумеется, из этого правила есть исключения: иногда небольшие дома стоят дороже, чем большие. Вариации есть всегда, но они не отменяют общую тенденцию. И поскольку в конечном итоге мы пытаемся предсказать цену продажи дома, его площадь – весьма полезная информация.
Рис. 5.5. Диаграмма рассеяния, отражающая площадь в квадратных футах и цену продажи
В этом разделе мы лишь в общих чертах обсудили различные способы визуализации данных и то, какую информацию можно быстро получить с их помощью. Если вы хотите глубже изучить методы использования визуализации в процессе исследования данных, мы рекомендуем ознакомиться со следующими книгами:
–
–
В каждом наборе данных будут наблюдаться аномалии, выбросы и пропущенные значения. Что с ними можно сделать?