Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Идея Брэда Эфрона заключалась в том, чтобы принять единственную имеющуюся у нас выборку за всю совокупность. Затем, продолжая идею извлечения выборки из совокупности, мы могли бы извлечь подвыборку из нашей выборки (каждая подвыборка должна иметь тот же размер, что и исходная выборка, благодаря многократному включению в нее каждого значения). Фактически точно так же, как мы могли бы извлечь много выборок из генеральной совокупности, мы можем извлечь много подвыборок из одной имеющейся у нас выборки. Принципиальная разница состоит в том, что мы действительно можем сформировать такие подвыборки. К каждой из них можно применить соответствующую модель, например оценить среднее значение, а затем посмотреть, насколько сильно различаются эти значения. Базовая идея состоит в том, чтобы смоделировать взаимосвязь между всей совокупностью и фактической имеющейся выборкой с помощью вычисления отношений между выборкой и подвыборкой. Это как если бы мы создавали искусственные копии выборки, раскрывая большое количество данных, которые до сих пор было скрыто. Понятие «бутстреппинг» означает переход от выборки к подвыборке точно так же, как мы перемещаемся от генеральной совокупности к выборке.

Из этих примеров становится очевидной одна вещь: использование искусственных данных для облегчения прогнозирования – задача весьма трудоемкая. Создание копий соседних значений, репликация случаев ошибочной классификации, формирование нескольких (зачастую сотен и более) подвыборок данных исключают несерьезный подход. Или как минимум возможность проделать все это вручную. К счастью, мы живем в мире компьютеров. Они просто созданы для проведения повторяющихся вычислений за доли секунды. Вспомните миллион циклов, в каждом из которых было 10 бросков монеты. Методы создания темных данных для использования их в наших интересах, описанные здесь, во многом являются детищем компьютерного века. Выше я употребил слово «революционный» – это не преувеличение.

<p>Мнимые данные: байесовское априорное распределение</p>

При рассмотрении симулирования мы предполагали, что правильно понимаем базовую структуру, процесс и механизм возникновения данных. Такая уверенность часто неоправданна. Мы можем иметь некоторое представление о процессе, но нам должно очень повезти, чтобы действительно знать все в деталях. Как минимум нам сложно быть уверенными в точных значениях чисел, характеризующих структуру.

Например, я мог бы предположить, что рост британских мужчин соответствует так называемому нормальному распределению, при этом большинство из них имеют средний рост и лишь немногие отличаются очень высоким или очень низким ростом. Однако такое предположение не дает понимания, каков именно этот средний показатель. Я могу быть уверен в том, что он меньше 1,85 м, более уверен в том, что он меньше 1,9 м, еще более уверен в том, что он меньше 1,95 м и абсолютно уверен в том, что средний рост меньше 2 м. Точно так же я могу быть уверен в том, что это значение больше 1,7 м, чуть более уверен, что оно больше 1,65 м, и абсолютно уверен, что оно превосходит 1,5 м. То, что я описываю здесь, – это распределение моих представлений о вероятном значении среднего роста; оно показывает, насколько я убежден, что средний рост находится в том или ином диапазоне.

Сложно сказать, откуда именно взялось такое распределение. Скорее всего, это сочетание опыта личных встреч с людьми разного роста, расплывчатых сведений из исследований на эту тему, о которых я некогда читал, смутных воспоминаний о том, что кто-то когда-то говорил мне об этом. В любом случае это эквивалентно некоему набору данных, которые я не могу зафиксировать, по крайней мере полностью, и установить их значения. Проще говоря, эти данные – темные.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика