Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Родственная этой проблема, известная как смещение вследствие пропущенных переменных, возникает в более сложных статистических методах. Множественная регрессия – это статистический инструмент, который увязывает множество независимых переменных (предикторов) с зависимой от них переменной. Хотя есть особые случаи, для которых это неприменимо, в целом можно сказать, что пропуск любого предиктора ведет к появлению мнимых связей между другими предикторами и зависимой переменной. И, как и в предыдущем примере, поскольку мы не можем включить все возможные предикторы, пропуск некоторых из них неизбежен. Риск, который несут такие темные данные, заключается в том, что выводы могут оказаться неверными. Конечно, статистики, зная об этих проблемах, разрабатывают инструменты для смягчения их воздействия.

<p>Скрининг</p>

В начале своей статистической карьеры я участвовал в проекте по выявлению предрасположенности к остеопорозу у женщин. Остеопороз – это патология, при которой кости теряют массу, становятся хрупкими и с большей вероятностью могут сломаться. По этой причине падения для пожилых людей могут быть особо опасными. Способы измерения плотности костей, например центральная двухэнергетическая рентгеновская абсорбциометрия (центральная DXA), существуют, но они, как правило, очень сложны и недешевы. Это означает, что нужен процесс, позволяющий идентифицировать людей, которые могут страдать от этого состояния. Цель проекта состояла в разработке простой анкеты, которая позволяет получить оценку вероятности возникновения остеопороза на основе известных факторов риска. При этом анкета должна была заполняться респондентом самостоятельно без необходимости присутствия специалиста.

Наша анкета, как и другие подобные инструменты скрининга, не могла бы полностью отделить имеющих предрасположенность от тех, у кого ее нет. Но даже несовершенная система, способная выявлять большинство тех, кто находится в группе высокого риска, была бы чрезвычайно ценной. Это позволило бы службам здравоохранения сосредоточить на них внимание и протестировать с помощью более точной и дорогостоящей процедуры.

Несовершенная система допускает ошибки двух видов. С одной стороны, она может пропустить того, у кого есть патология, – в нашем примере это кто-то с остеопорозом при отсутствии стандартных признаков. А с другой стороны, система может отнести здорового человека к имеющим заболевание. Очевидно, что чем ниже уровни ошибок обоих видов, тем лучше инструмент проверки. Казалось бы, можно снизить частоту ошибок первого вида до нуля, просто классифицируя всех как подверженных остеопорозу, но это делает скрининг бесполезным. И что еще хуже, это увеличивает уровень ошибок второго вида: мы классифицируем всех одинаково без реального выполнения условий. Аналогично мы могли бы уменьшить уровень ошибок второго вида до нуля, классифицируя всех как не имеющих предрасположенности, но и это совершенно бессмысленно. Учитывая, что инструмент несовершенен, нужно было найти какой-то баланс. Или, другими словами, следовало признать тот факт, что кого-то мы неизбежно будем классифицировать неверно.

Любой, кто окажется по результатам скрининга в группе высокого риска, будет подвергнут более тщательному обследованию, например с использованием центральной DXA. Среди этих людей будут и те, кого мы неверно классифицируем как потенциально страдающих остеопорозом, и в этом случае тест покажет отсутствие заболевания. Но другая группа, к которой по результатам скрининга будут отнесены не имеющие предрасположенности, не будет обследоваться так тщательно. Таким образом, мы не узнаем, с кем из этой группы мы ошиблись, по крайней мере до тех пор, пока их состояние не покажет со всей очевидностью нашу ошибку. Можно только надеяться (если инструмент скрининга достаточно эффективен), что таких окажется не слишком много, но их истинное состояние будет для нас темными данными.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика