Читаем Разберись в Data Science полностью

Рис. 9.4. Две конкурирующие модели. Модель слева хорошо обобщает, а переобученная модель справа, по сути, просто запоминает данные. Из-за вариаций модель справа не сможет хорошо предсказывать новые точки

Для предотвращения переобучения можно разделить набор данных на две части: обучающий набор, используемый для построения модели, и тестовый набор, позволяющий оценить ее эффективность. Производительность модели на тестовом наборе данных, на которых она не училась, позволяет оценить ее предсказательную способность.

<p><emphasis>Производительность регрессионной модели</emphasis></p>

Сталкиваясь с регрессионной моделью на работе, будь то модель множественной линейной регрессии или что-то более изощренное, вы можете оценить ее соответствие вашим данным с помощью графика сравнения фактического и прогнозируемого значений. Некоторые полагают, что мы не можем визуализировать производительность модели регрессии при наличии слишком большого количества входных данных – однако помните о том, что сделала модель. Она преобразовала входные параметры (один или несколько) в выходные.

Итак, для каждой строки в наборе данных у вас есть фактическое значение и связанное с ним прогнозируемое значение. Создайте на их основе диаграмму рассеяния. Они должны быть хорошо коррелированы. Такой визуальный тест позволит вам быстро оценить эффективность вашей модели. Ваши специалисты по работе с данными могут предоставить несколько связанных показателей (одним из которых является R-квадрат), однако не стоит смотреть только на эти цифры. Всегда, всегда требуйте предоставить вам график сравнения фактических и прогнозируемых значений. Пример с использованием модели, построенной на основе данных о жилье, представлен на рис. 9.5.

Рис. 9.5. На этом графике вы видите, что модель плохо прогнозирует цены на самые дорогие дома. Можете ли вы определить другие недостатки этой модели, используя этот график?

<p>Прочие модели регрессии</p>

Вы также можете столкнуться с такими вариантами линейной регрессии, как LASSO и Ridge (ридж-регрессия, или гребневая регрессия), которые могут помочь при наличии большого количества коррелированных входных данных (мультиколлинеарность) или в тех случаях, когда количество входных переменных превышает количество строк в вашем наборе данных. В результате получается модель, похожая на модели множественной регрессии.

Другие модели регрессии выглядят совершенно иначе. Метод k-ближайших соседей, обсуждавшийся во введении, применялся к задаче классификации, но его также можно применить и к задаче регрессии. Например, для предсказания цены продажи любого дома мы могли бы взять среднюю цену продажи трех ближайших к нему недавно проданных домов. В этом случае для решения задачи регрессии использовался бы метод k-ближайших соседей.

В следующей главе мы рассмотрим некоторые из этих моделей, поскольку их можно использовать для решения задач как классификации, так и регрессии.

<p>Подведение итогов</p>

Наша цель в этой главе состояла в том, чтобы помочь вам развить интуитивное понимание принципа контролируемого обучения и его фундаментального алгоритма – линейной регрессии. Мы также рассмотрели множество причин, по которым регрессионные модели могут ошибаться. Помните об этих проблемах и подводных камнях, потому что вопрос не в том, какие из них повлияют на ваши регрессионные модели, а в том, сколько это сделают.

Как вы, вероятно, уже догадались, обучающие данные обусловливают как мощь, так и ограниченность контролируемого обучения. К сожалению, зачастую компании уделяют больше внимания новейшим алгоритмам контролируемого обучения, чем сбору актуальных, точных и достаточных данных для подачи на вход этих алгоритмов. Пожалуйста, помните мантру «мусор на входе, мусор на выходе». Хорошие данные – ключевое условие эффективности моделей контролируемого обучения.

Если вы понимаете принцип обучения без учителя и обучения с учителем, то вы понимаете суть машинного обучения. Поздравляем! И извините за отсутствие больших открытий. Мы стремились преподать вам основы машинного обучения, обойдясь без громких рекламных слоганов и лишней шумихи. Машинное обучение предполагает как обучение без учителя, так и обучение с учителем.

Мы продолжим разговор о машинном обучении в следующей главе в контексте обсуждения моделей классификации.

<p>Глава 10</p><p>Освойте модели классификации</p>

Алгоритм машинного обучения заходит в бар.

Бармен спрашивает: «Что будете?»

Алгоритм отвечает: «А что заказали остальные?»

– Чет Хаасе (@chethaase)
Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных