Читаем Разберись в Data Science полностью

Фактическому уровню продаж в 15 долларов так же соответствует прогнозное значение 15,14 доллара, поэтому соответствующий квадрат имеет площадь (15,14–15)2 = 0,02. Сложив площади квадратов для всех точек, мы получим суммарную погрешность нашей простой модели. В правой части рис. 9.3(а) процесс вычисления суммы квадратов ошибок представлен наглядно. Чем больше сумма квадратов, тем хуже модель соответствует данным, и наоборот: чем меньше сумма квадратов, тем лучше соответствие.

Рис. 9.3. Регрессия методом наименьших квадратов предполагает нахождение такой линии, при которой сумма площадей квадратов отклонений прогнозируемых значений от фактических является минимальной

Возникает вопрос: можем ли мы найти такое значение наклона и точки пересечения, которые позволяют оптимизировать (то есть минимизировать) сумму квадратов отклонений? В настоящее время наша наивная модель не имеет наклона, но имеет точку пересечения на отметке 15,14 доллара.

Очевидно, что модель, представленная на рис. 9.3 (а), не оптимальна. Чтобы приблизиться к оптимуму, давайте добавим наклон m, введя в уравнение переменную температуры. На рис. 9.3(b) мы предполагаем, что разумными значениями для наклона и точки пересечения могут быть 0,6 и –34,91 соответственно. Это превращает нашу модель с плоской линией, представленную на рис. 9.3(а), в наклонную линию, которая отражает некоторый восходящий тренд. Кроме того, мы сразу замечаем уменьшение общей площади квадратов.

Благодаря включению в модель переменной температуры значение отклонения существенно уменьшилось. Прогнозное значение для точки с температурой = 86 (30 °C) изменилось с 15,14 в случае простой модели на Продажи = 0,6(86) – 34,91 = 16,69, что привело к уменьшению вклада соответствующего наблюдения в сумму квадратов с 14,9 до (16,69–19)2 = 5,34.

Вы могли бы подставлять значения наклона и точки пересечения вплоть до получения единственной комбинации, минимизирующей сумму квадратов. Однако линейная регрессия позволяет сделать это математически. На рис. 9.3(с) показана наименьшая сумма квадратов ошибок для имеющихся данных. Малейшее отклонение от указанных значений наклона и точки пересечения привело бы к увеличению площадей этих квадратов.

Вы можете использовать эту информацию, чтобы оценить, насколько хорошо итоговая модель соответствует данным. Результат линейной регрессии, показанный на рис. 9.3(c), все еще не идеален, однако он явно превосходит модель, представленную на рис. 9.3 (а), прогнозное значение которой каждый раз составляло 15,14 доллара.

Насколько превосходит? Мы начали с площади (суммы квадратов) в 34,86, а при использовании итоговой модели эта площадь уменьшилась до 7,4. Это значит, что мы уменьшили общую площадь на (34,86–7,4) = 27,46, то есть на 27,46/34,86 = 78,8 %. В таких случаях часто говорят, что модель «объяснила», «описала» или «предсказала» 78,8 % (или 0,788) дисперсии данных. Это число называется «R-квадратом» или R2.

Если модель идеально соответствует данным, R2 = 1. Однако не стоит рассчитывать на то, что в работе вам будут часто встречаться модели с высоким значением R2[86]. Когда такое происходит, это говорит о том, что, скорее всего, произошла ошибка, и вам следует пересмотреть процессы сбора данных. Как вы помните из главы 3, вариации присутствуют во всем, и их невозможно объяснить полностью. Так уж устроена Вселенная.

<p>Линейная регрессия: что она дает</p>

Давайте быстро повторим то, что мы обсуждали ранее, в контексте парадигмы контролируемого обучения, представленной на рис. 9.1. У нас был набор данных, состоящий из столбца с входными значениями и столбца с выходными значениями, который мы подали на вход алгоритма линейной регрессии. Этот алгоритм извлек из данных оптимальные коэффициенты для подстановки в линейное уравнение Продажи = m(Температура) + b, создав модель Продажи = 1,03(Температура) – 71,07, которую можно использовать для прогнозирования прибыли от продажи лимонада.

Модели линейной регрессии пользуются популярностью во многих отраслях, потому что они не только делают прогнозы, но и объясняют то, как входные признаки соотносятся с выходными данными. (Кроме того, их совсем не трудно вычислить.) Коэффициент наклона, равный 1,03, говорит о том, что при повышении температуры на один градус можно ожидать увеличения продаж на 1,03 доллара. Это значение сообщает нам как величину, так и направление влияния входных данных на выходные.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных