Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

В главе 2 мы уже познакомились с темными данными в сфере банковского обслуживания физических лиц, с которой мы сталкиваемся почти ежедневно. Вы сами убедились, насколько сложно оказалось построить модели, включавшие бы всех потенциальных заявителей на получение кредита, поскольку имеющиеся данные, как правило, представляли собой искаженную выборку. Например, мы никогда не узнаем, каким был бы исход (погашение/непогашение) для тех, кто подал заявку, но кому кредит предоставлен не был. В розничном банковском обслуживании существует такое понятие, как «анализ отклоненных заявок», которое описывает стратегии, позволяющие сделать выводы о том, какими были бы исходы для этих людей. Такие стратегии противопоставляют «получивших отказ» и «прокредитованных». (В сфере розничного кредитования терминология вообще не отличается особым тактом, достаточно вспомнить «низкокачественных заявителей» или те же «лимоны».) Анализ отклоненных заявок – частный случай более общей стратегии борьбы с недостающими значениями, называемой вменением, которую мы обсудим позже в этой главе.

Нам могут потребоваться выводы из этих ненаблюдаемых исходов по разным причинам. Одна из них состоит в том, чтобы проверить, насколько хорошо работает наш метод отбора, например, не отклоняет ли он кандидатов, которые не допустили бы дефолта. Другая причина – улучшение моделей прогнозирования вероятных исходов для новых кандидатов. В конце концов, если наши модели основаны лишь на той части населения, которой ранее уже были предоставлены кредиты, то они могут оказаться ошибочными применительно ко всей совокупности заявителей. Эта проблема была описана в главе 1.

Чтобы решить проблему неизвестных исходов для тех, кто не получил кредиты, в одном банке, с которым я работал, было введено такое понятие как «золотая выборка». Это была выборка людей, которые должны были получить отказ, поскольку не соответствовали критериям банка для получения кредита. Предполагалось, что они несут высокие риски неплатежей и могут обойтись банку очень дорого (отчего и были названы «золотые»), но тем не менее банк одобрял небольшую случайную выборку из их числа ради той информации, которую мог получить, предоставив кредит. Эта стратегия позволила банку усовершенствовать модель выявления тех, кто, вероятно, допустит дефолт, и принимать более верные решения, кому выдавать кредиты.

К сожалению, не всегда можно увеличить выборку, чтобы восполнить недостающие части генеральной совокупности, но иногда мы можем получить представление о том, как должна выглядеть общая структура распределения по аналогии (скажем, сопоставить распределение по возрасту групп населения в похожих странах) или на основе теоретических аргументов (например, структура распределения срока службы электрических лампочек, исходя из физических принципов, на которых они работают). В таких ситуациях если мы знаем критерии выбора, то можем использовать наблюдаемую часть распределения, чтобы рассчитать общее распределение и, как следствие, его свойства, например, среднее значение. Следующий раздел иллюстрирует эту важную мысль.

<p>Выход за пределы данных: что, если ты умрешь первым?</p>

Нас часто интересует, сколько времени пройдет, прежде чем произойдет то или иное событие. Например, вам наверняка бывает любопытно, как долго вы будете трудиться на нынешнем месте работы, сколько продлится чей-нибудь брак или как скоро двигатель вашего автомобиля выйдет из строя. В хирургии бывает необходимо снизить артериальное давление пациента с помощью гипотензивного препарата, но при этом врачи знают, что после операции артериальное давление должно нормализоваться как можно скорее. Следовательно, важно понимать, сколько времени займет операция и получится ли вернуть артериальное давление к нормальному уровню сразу по ее завершении. В более общем плане, что касается здравоохранения, нас могут интересовать такие вещи, как продолжительность жизни конкретного пациента, время, спустя которое болезнь может возобновиться, или срок, после которого конкретный орган может перестать функционировать.

Проблемы такого типа относятся к анализу выживания. Они имеют давнюю историю, особенно в области медицины и в сфере страхования, где с ними работают актуарии, строя таблицы продолжительности жизни определенных групп людей и анализируя потенциальный срок службы производственных объектов.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика