Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Более утонченное применение метод симуляции находит в современном анализе данных. В частности, так называемая байесовская статистика, описанная далее в этой главе, часто приводит к очень сложным и трудноразрешимым математическим уравнениям. Поиск решения таких уравнений затруднен или попросту невозможен, но на основе симуляции были разработаны альтернативные методы. Так же, как в примере с прогнозированием климата, мы берем уравнения в качестве модели и генерируем данные, которые могли бы возникнуть, если бы эта модель была верной. Затем мы точно так же повторяем это раз за разом, чтобы сгенерировать множественные наборы данных, каждый из которых мог бы возникнуть в реальности. После этого мы суммируем множественные наборы данных, что позволяет вычислять средние значения, диапазоны вариаций или любую другую описательную статистику, которая нам нужна. По сути, мы видим то, какими характеристиками могут обладать результаты и какова вероятность их появления. Методы симуляции превратили байесовскую статистику из интересной теоретической идеи в практический и очень полезный инструмент, который лег в основу машинного обучения и искусственного интеллекта.

Однако важно помнить, что по определению симулированные данные поступают из гипотетической модели. Они являются темными данными (DD-тип 14: фальшивые и синтетические данные), которые возникают не в результате реального процесса. Очевидно, что если модель неверна, если она плохо отображает реальность, то мы рискуем получить искаженное представление о том, что могло бы произойти. Здесь работает то же правило, что и везде: если у вас нет глубокого понимания вопроса, вы легко можете сбиться с пути.

<p>Репликация данных</p>

Из этой книги вы уже знаете, как часто мы хотим оценить то, чего не было, или то, что не можем наблюдать непосредственно. Например, мы пытаемся диагностировать заболевание, основываясь исключительно на симптомах; или прогнозировать число пассажиров нью-йоркского метро в следующем году, исходя из того, сколько человек совершило поездку в этом; или понять, на что будет походить национальная экономика через десятилетие; или предсказать, какой потенциальный заемщик допустит дефолт по кредиту, какой студент преуспеет на курсе, какой соискатель будет более эффективно выполнять работу.

Общей особенностью этих ситуаций является то, что в нашем распоряжении есть данные, описывающие ряд предыдущих случаев (людей, у которых были заболевания, пассажиропоток прошлых лет или поведение реальных заемщиков). И для каждого из этих случаев мы знаем исход (какое именно заболевание, сколько пассажиров, количество дефолтов), а также описательные характеристики (симптомы, повторяющиеся маршруты, информация из формы заявки). Мы можем использовать эти исторические данные для моделирования взаимосвязи между описательными характеристиками и исходом. Такая модель позволит прогнозировать исходы для других случаев исключительно на основе их описательных характеристик.

Эта базовая структура – совокупность прошлых наблюдений, дающая нам и характеристики, и исходы, которую мы используем для построения модели, связывающей характеристики с результатом, чтобы в дальнейшем предсказывать новые исходы – распространена повсеместно. Подобные модели часто называют прогностическими, хотя «прогноз», возвращаясь к нашим примерам, может быть связан с неизвестным диагнозом, а вовсе не обязательно с будущим пассажиропотоком. Будучи исключительно популярными, прогностические модели стали предметом огромного числа исследований. На сегодня разработано множество методов построения таких моделей с широким спектром специфических свойств, и можно выбрать наилучший, соответствующий конкретной задаче.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика