Более утонченное применение метод симуляции находит в современном анализе данных. В частности, так называемая байесовская статистика, описанная далее в этой главе, часто приводит к очень сложным и трудноразрешимым математическим уравнениям. Поиск решения таких уравнений затруднен или попросту невозможен, но на основе симуляции были разработаны альтернативные методы. Так же, как в примере с прогнозированием климата, мы берем уравнения в качестве модели и генерируем данные, которые могли бы возникнуть, если бы эта модель была верной. Затем мы точно так же повторяем это раз за разом, чтобы сгенерировать множественные наборы данных, каждый из которых мог бы возникнуть в реальности. После этого мы суммируем множественные наборы данных, что позволяет вычислять средние значения, диапазоны вариаций или любую другую описательную статистику, которая нам нужна. По сути, мы видим то, какими характеристиками могут обладать результаты и какова вероятность их появления. Методы симуляции превратили байесовскую статистику из интересной теоретической идеи в практический и очень полезный инструмент, который лег в основу машинного обучения и искусственного интеллекта.
Однако важно помнить, что по определению симулированные данные поступают из гипотетической модели. Они являются темными данными (
Репликация данных
Из этой книги вы уже знаете, как часто мы хотим оценить то, чего не было, или то, что не можем наблюдать непосредственно. Например, мы пытаемся диагностировать заболевание, основываясь исключительно на симптомах; или прогнозировать число пассажиров нью-йоркского метро в следующем году, исходя из того, сколько человек совершило поездку в этом; или понять, на что будет походить национальная экономика через десятилетие; или предсказать, какой потенциальный заемщик допустит дефолт по кредиту, какой студент преуспеет на курсе, какой соискатель будет более эффективно выполнять работу.
Общей особенностью этих ситуаций является то, что в нашем распоряжении есть данные, описывающие ряд предыдущих случаев (людей, у которых были заболевания, пассажиропоток прошлых лет или поведение реальных заемщиков). И для каждого из этих случаев мы знаем исход (какое именно заболевание, сколько пассажиров, количество дефолтов), а также описательные характеристики (симптомы, повторяющиеся маршруты, информация из формы заявки). Мы можем использовать эти исторические данные для моделирования взаимосвязи между описательными характеристиками и исходом. Такая модель позволит прогнозировать исходы для других случаев исключительно на основе их описательных характеристик.
Эта базовая структура – совокупность прошлых наблюдений, дающая нам и характеристики, и исходы, которую мы используем для построения модели, связывающей характеристики с результатом, чтобы в дальнейшем предсказывать новые исходы – распространена повсеместно. Подобные модели часто называют