Доля истинно положительных результатов = Количество соискателей, приглашенных на стажировку, деленное на количество соискателей, которые должны были получить такое приглашение = 12/(12 + 11) = 52 %.
Доля истинно отрицательных результатов = Количество соискателей, которым было отказано в приглашении на собеседование, деленное на количество соискателей, которым должно было быть в нем отказано = 37/37 = 100 %.
Увеличение порогового значения привело к уменьшению доли истинно положительных результатов, что, в свою очередь, увеличило долю истинно отрицательных результатов. Более высокий порог позволяет отсеять неподходящих кандидатов, но за это приходится заплатить отсевом нескольких подходящих кандидатов.
Мы хотели продемонстрировать компромисс, на который приходится идти при определении порога отсечения. В конечном счете выбор подходящего порогового значения требует экспертных знаний в предметной области. Как главный по данным вы должны потратить время на обдумывание порога отсечения, лучше всего подходящего для решения стоящей перед вами задачи.
Табл. 10.4. Матрица ошибок для прогнозов модели классификации с порогом отсечения 0,75
Доля истинно положительных и истинно отрицательных результатов – это далеко не все показатели, которые можно получить на основе матрицы ошибок.
Статистики и врачи называют долю истинно положительных результатов «чувствительностью», а специалисты по работе с данными и машинному обучению – «отзывчивостью». В разных областях для одних и тех же показателей используются разные термины.
Подведение итогов
В этой главе мы обсудили логистическую регрессию, деревья решений и ансамблевые методы. Кроме того, мы поговорили о множестве подводных камней, с которыми вы можете столкнуться при работе с моделями классификации. В частности, мы обсудили такие распространенные ловушки классификации, как:
– неправильное определение типа задачи;
– утечка данных;
– отсутствие разделения данных;
– выбор неправильного порогового значения для принятия решения;
– неправильное понимание точности.
Для лучшего понимания точности мы описали матрицу ошибок и то, как ее можно использовать для оценки производительности модели. В следующей главе мы поговорим о неструктурированных данных и текстовой аналитике.
Глава 11
Освойте текстовую аналитику
«Стремитесь к успеху, но готовьтесь к овощам»
В нескольких предыдущих главах мы говорили о данных в их традиционном понимании. Для большинства людей наборы данных представляют собой таблицы, состоящие из строк и столбцов. Это структурированные данные. Однако в реальном мире большая часть данных, с которыми вы взаимодействуете каждый день, является неструктурированной. Эти данные содержатся в текстах, которые вы читаете, в словах и предложениях электронных писем, новостных статей, сообщений в социальных сетях, обзоров продуктов на Amazon, статей в «Википедии» и книги, которую вы держите в руках.
Эти неструктурированные текстовые данные также можно проанализировать, но с ними нужно обращаться несколько иначе – о чем мы и поговорим в этой главе.
Ожидания от текстовой аналитики
Прежде чем углубиться в тему, мы хотели бы поговорить об ожиданиях от текстовой аналитики. На протяжении многих лет этому виду аналитики уделялось достаточно большое внимание. Одним из способов ее применения является анализ настроений, позволяющий определять эмоции автора публикации в социальных сетях, комментария или жалобы. Однако, как вы увидите далее, проанализировать текст не так-то просто. К концу этой главы вы поймете, почему некоторые компании преуспевают в использовании текстовой аналитики, а другие – нет.