Как правило, алгоритмы для создания подобных диагностических классификаций могут ошибаться: симптомы часто бывают неоднозначными, а у молодого кандидата на ипотеку может быть очень короткая история финансовых транзакций. Один из способов улучшить такой алгоритм состоит в том, чтобы изучить случаи, которые он ранее неверно классифицировал, и посмотреть, сможем ли мы каким-то образом изменить или скорректировать его, чтобы прогнозы стали точнее. Метод, который позволяет сделать это, – создание искусственных данных по следующей схеме. Мы начинаем с определения пациентов или кандидатов, по которым был сделан неправильный прогноз, и добавляем к данным
Иначе говоря, изменение алгоритма путем применения его к этому новому набору данных – (где исходные данные дополнены большим количеством ошибочно классифицированных копий – позволяет получить новую версию алгоритма, которая будет точнее классифицировать те данные, где ранее допускалась ошибка. Идея состоит в том, чтобы создавать искусственные данные, смещающие «внимание» алгоритма в нужном направлении. Или, по-другому, использовать данные, которые могли бы быть.
Процедура, основанная на этой идее, называется
В то время как бустинг сосредоточен на тех случаях, которые ранее были неверно классифицированы и требуют дополнительного внимания, для определения точности оценок был разработан другой подход к использованию искусственных наборов данных. Речь идет о методе
Бутстреппинг работает следующим образом. Часто нашей целью является составление общего сводного отчета по некоторой совокупности чисел (скажем, нам может потребоваться среднее значение), но иногда невозможно определить каждое отдельно взятое число. Например, нам нужно узнать средний возраст людей в стране, но людей в стране слишком много, чтобы мы могли опросить их всех. Как мы уже видели ранее, часто само понятие всеохватывающего измерения бессмысленно – мы не можем, к примеру, многократно измерять массу добываемой руды, так как смысл ее добычи в переработке. Решение заключается в том, чтобы сформировать выборку – просто спросить некоторых людей об их возрасте или взвесить несколько партий добытой руды, – а затем использовать среднее значение этой выборки в качестве нашей оценки.
Средние показатели выборки безусловно полезны – они дают нам общее представление о значении, но было бы неразумным ожидать, что они окажутся абсолютно точными. В конце концов, если мы возьмем другую выборку данных, то, вероятно, получим иной результат. Можно, конечно, ожидать, что он не будет слишком отличаться от первого, но рассчитывать на их идентичность не стоит. Это означает, что кроме среднего значения хотелось бы получить оценку степени его точности. Хотелось бы знать, насколько велик разброс средних значений, которые мы получим, сформировав разные выборки, и насколько далеки от истинного значения наши средние показатели выборки.
Чтобы найти показатель дисперсии для средних значений, достаточно использовать несложную статистическую теорию. Однако для других описаний и сводок данных это будет куда сложнее, особенно если наши вычисления выходят далеко за рамки простого определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на помощь.
Если бы мы могли сформировать много выборок (например, как в случае с десятикратным подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются результаты. Но, к сожалению, у нас есть только одна выборка.