Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

К сожалению, некоторые из участников вышли из исследования в течение этих шести месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные, так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места, ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать выбывание участников и вот почему.

Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли придерживаться разработанной программы питания – им было стыдно и они не могли вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным, обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли. Третьи покинули исследование по причинам, не связанным с похудением, – кто-то переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где проводились измерения.

Для первой из этих трех категорий существует четкая связь между вероятностью выпадения и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они не придерживались программы питания, означало, что эти люди как минимум худели намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных тех, кто остался в исследовании.

Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял мотивацию, существовала связь между вероятностью их выпадения и тем, что было измерено – начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей, ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем признаками того, что дела идут или могут пойти не так.

Наконец, третья категория состоит из людей, у которых причина выбывания не имела отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те, которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными» наблюдениями.

Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно запомнить, поэтому я переименую эти три типа механизмов появления недостающих данных.

● Я обозначу неигнорируемо потерянные наблюдения как зависимые от невидимых данных, или UDD (Unseen Data Dependent) для краткости. Вероятность отсутствия наблюдений в этом случае зависит от значений, которые еще неизвестны. В нашем примере вероятность ненаблюдения окончательного значения ИМТ зависит от того, насколько оно высокое: люди с более высокими значениями с меньшей вероятностью захотят его измерить.

● Я обозначу случайно потерянные наблюдения как зависимые от видимых данных, или SDD (Seen Data Dependent) для краткости. Здесь вероятность невозможности наблюдения зависит от данных, которые уже наблюдались. В нашем примере вероятность того, что итоговое значение ИМТ не будет наблюдаться для этой категории, зависит от исходного значения ИМТ, при этом люди с низкими значениями могут выпасть с большей вероятностью.

● Я обозначу абсолютно случайно потерянные наблюдения как независящие от данных, или NDD (Not Data Dependent) для краткости. В этом случае вероятность отсутствия наблюдения никак не зависит от данных, имеющихся или нет. В нашем примере вероятность отсутствия итогового значения ИМТ не связана с другими значениями – ни с теми, которые были нами уже получены, ни с теми, которые мы могли бы получить, если бы наблюдения состоялись.

Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем задумываться о том, как скорректировать недостающие данные. Последний тип механизма появления недостающих данных – самый простой, поэтому начнем с него.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика