Поскольку мы погружены в данные, нам очень трудно заметить подобные утечки. К сожалению, во многих учебниках этой проблеме не уделяется внимание, потому что там используются идеализированные наборы данных, тогда как в реальных наборах вероятность утечки есть всегда. Как главный по данным, вы должны следить за тем, чтобы ваши входные и выходные параметры не содержали перекрывающуюся информацию.
Мы вернемся к обсуждению проблемы утечки данных в следующих главах.
Экстраполяция – это прогнозирование значения за пределами диапазона входных данных, использованных для построения модели. В случае торговли лимонадом при температуре 0 °F модель предсказала бы объем продаж на уровне –71,07 доллара. Если бы в доме не было ни одного квадратного фута площади и ни одной ванной комнаты (то есть если бы дома фактически не существовало), модель предсказала бы цену продажи в –1 614 841,60 доллара. Оба значения не имеют смысла.
Модели делают прогнозы за пределами диапазона данных, на которых они «учились». В отличие от людей, уравнения не имеют здравого смысла, позволяющего понять, что их результаты неверны. Математические уравнения не способны думать. Если вы подставите в них числа в качестве входных данных, они выдадут вам некий численный результат. Именно вы как главный по данным должны понимать, что имеет место экстраполяция.
Следует подчеркнуть, что результаты модели всегда рассчитываются на основе конкретных данных. То есть вы не должны делать прогнозы на основе данных, которые «соответствуют» диапазону обучающих данных, но не соответствуют контексту, в котором эти данные были собраны, поскольку модель ничего не знает о происходящих в мире изменениях.
Если бы вы построили модель, предсказывающую цены на дома в 2007 году, она показала бы себя ужасно в 2008 году после обвала рынка жилья. Использование такой модели в 2008 году означало бы экстраполяцию данных о рыночных условиях 2007 года, которые весьма сильно отличались от условий 2008 года. В 2021 году, пока мы писали эту книгу, многие отрасли сталкивались с этой проблемой из-за пандемии COVID-19. Модели, обученные на данных, собранных до ее начала, больше не отражают многие из вновь возникших взаимосвязей, а значит, больше не актуальны.
Линейная регрессия не годится для моделирования поведения фондового рынка, который на протяжении всей своей истории рос экспоненциально, а не линейно. Статистический отдел компании Procter & Gamble посоветовал бы «не подгонять прямую линию к кривой в форме банана».
В арсенале статистиков есть инструменты для преобразования некоторых нелинейных данных в линейные. Тем не менее иногда стоит просто признать тот факт, что линейная регрессия не подходит для решения стоящей перед вами задачи.
В этой главе мы обсуждали две цели применения регрессионных моделей – объяснение взаимосвязей и прогнозирование. Судя по всему, модели линейной регрессии могут делать и то и другое. Коэффициенты модели линейной регрессии (при правильных условиях) обеспечивают интерпретируемость, которой уделяется большое внимание во многих отраслях – например, в клинических испытаниях, когда исследователи пытаются понять точную величину и направление влияния входного параметра (дозировка лекарства) на выходной (кровяное давление). В данном случае необходимо проявлять большую осторожность, чтобы избежать негативного влияния мультиколлинеарности и пропущенных переменных на объяснительную способность модели.
В других областях, таких как машинное обучение, целью является точное предсказание[91]. Например, наличие мультиколлинеарности может не представлять проблемы, если модель способна хорошо предсказывать будущие результаты. Когда цель модели – предсказать новые выходные данные, вы должны быть очень осторожны, чтобы избежать так называемого переобучения.
Как вы помните, модели – это упрощенные версии реальности. Хорошая модель хорошо аппроксимирует взаимосвязи между входными и выходными данными. По сути, она регистрирует некое скрытое явление, выражением которого и являются данные.
Однако переобученная модель фиксирует не взаимосвязь, существование которой мы предполагаем, а взаимодействие обучающих данных со всем присутствующим в них шумом и вариациями. Поэтому ее прогнозы – не результат моделирования, а просто некий набор точек данных, которые у нас уже есть.
По сути, переобученные модели запоминают выборочные обучающие данные и плохо обобщают новые наблюдения. Посмотрите на рис. 9.4. Слева вы видите данные о продажах лимонада с моделью линейной регрессии. Справа представлена сложная регрессионная модель, которая прекрасно предсказывает некоторые точки. Какую из них вы хотели бы использовать для прогнозирования?