Логистическая регрессия уменьшает так называемую логистическую функцию потерь, которая представляет собой способ измерения степени близости предсказанных вероятностей к фактическим меткам. Хотя линейная и логистическая регрессии используют разные методы, их цель одна и та же – максимально приблизить совокупность предсказанных моделью значений к фактическим.
Логистическая регрессия дает два преимущества: мы получаем формулу, которая помогает делать прогнозы на основе данных, а коэффициенты этой формулы объясняют взаимосвязи между входными и выходными параметрами.
Применить ее можно следующим образом. На рис. 10.2 показана вероятность приглашения на собеседование для студента со средним баллом 2,0, согласно нашей модели логистической регрессии. Шанс получить такое приглашение для этого человека составляет около 4 %. Кандидат, повышающий свой средний балл с 2,0 до 3,0, повышает вероятность получения приглашения на собеседование с 4 до 41 %, то есть разница составляет 37 %. Однако увеличение среднего балла еще на одну единицу, с 3,0 до 4,0, повышает вероятность с 41 до 92 %; здесь разница составляет целых 51 %! Обратите внимание на то, что при использовании моделей логистической регрессии влияние дополнительного балла на вероятность приглашения не является постоянным. В этом заключается еще одно отличие логистической регрессии от линейной: в случае линейной регрессии увеличение входной переменной на одну единицу всегда одинаково влияет на результат, каким бы ни было начальное значение.
Рис. 10.2. Применение модели логистической регрессии для прогнозирования вероятности приглашения при среднем балле равном 2, 3 и 4
Сама по себе логистическая регрессия не скажет вам, следует ли пригласить на собеседование того или иного человека или нет. Скорее она сообщает вам вероятность такого приглашения. Если вы хотите автоматизировать процесс принятия решений с помощью логистической регрессии, вам необходимо задать точку отсечения (пороговое значение), также известное как решающее правило; оно определяет реализацию того, чему научилась ваша модель. Если вы зададите точку отсечения на отметке 90 %, то есть будете рассматривать только те заявки, средний балл в которых предполагает 90 %-ную вероятность приглашения на собеседование, то, скорее всего, сделаете меньше предложений. С другой стороны, если вы готовы рассматривать заявки соискателей, шанс на приглашение которых, исходя из прошлых данных, составляет 60 %, то увидите гораздо больше кандидатов. Задание точек отсечения требует участия экспертов в предметной области.
Как говорилось ранее, коэффициент любой регрессионной функции говорит о взаимосвязях между входными и выходными данными. С первого взгляда понятно, что значение коэффициента для среднего балла в уравнении (2) является положительным и составляет 2,9. Это говорит о том, что более высокий средний балл повышает шансы человека на получение приглашения. В данном случае это не столь уж сногсшибательная новость, однако для исследователей, предсказывающих вероятность развития рака на основе определенных биомаркеров, это может иметь большое значение[96].