Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Так что же делать? В этой главе рассматриваются способы, с помощью которых мы можем заглянуть в тень и понять, что в ней скрыто, а также методы смягчения проблем, даже для тех случаев, когда нет возможности точно определить, что именно пошло не так. Далее мы познакомимся с идеями, инструментами и стратегиями, которые были разработаны специально, чтобы помочь нам получить правильные ответы, даже когда вокруг туман неопределенности. Основная часть главы посвящена ситуациям с отсутствием данных (например, DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, DD-тип 3: выборочные факты, DD-тип 4: самоотбор), а в конце мы кратко обсудим данные, которые можно наблюдать, но которые все равно могут вводить нас в заблуждение (например, DD-тип 10: ошибки измерения и неопределенность, DD-тип 9: обобщение данных, DD-тип 7: данные, меняющиеся со временем). Независимо от причины возникновения проблемы принципиальным условием ее решения является бдительность: осознание того, что именно может пойти не так. Это особенно актуально для ситуаций, когда сами данные не могут вам подсказать, что произошло нечто неблагоприятное (например, DD-тип 15: экстраполяция за пределы ваших данных, DD-тип 12: информационная асимметрия, DD-тип 8: неверно определяемые данные). Надеюсь, что множество примеров и список DD-типов, приведенный в этой книге, помогут вам сохранять это состояние бдительности, поскольку теперь вы знаете как минимум некоторые вещи, за которыми нужен глаз да глаз.

Но, прежде чем мы углубимся в детали, необходимо подчеркнуть один крайне важный, фундаментальный момент – появление темных данных указывает на небезупречность. Понятно, что это относится к тем случаям, когда данные оказываются ошибочными, но это применимо и к ситуациям с недостающими данными: само слово «недостающие» говорит о том, что вы надеялись получить больше данных, но что-то пошло не так. Важно понимать, что, хотя методы, которые мы разберем дальше, и помогают смягчить проблемы, возникающие из-за неправильных и неполных данных, лучше всего сразу постараться, чтобы данные были правильными и полными. Иначе говоря, необходимо сделать все возможное, как при разработке стратегии сбора данных, так и в процессе их фактического сбора, чтобы избежать ошибок и неполноты.

Легко сказать. А что, если это просто невозможно?

<p>Связываем наблюдаемые и недостающие данные</p>

Если наша стратегия сбора данных не принесла успеха и их набор оказался неполным, то ключевым фактором в борьбе с темными данными становится понимание того, почему эти данные отсутствуют. В частности, нам необходимо изучить взаимосвязь между имеющимися данными и отсутствием каких-либо элементов. Если повезет, это даст некоторое представление о том, какие значения могли бы иметь недостающие элементы, что, в свою очередь, позволит компенсировать отсутствующие данные.

В качестве отправной точки для такого подхода полезно использовать классификацию, предложенную американским статистиком Дональдом Рубином в 1970-х гг.[147] Она различает три типа взаимосвязей между наблюдаемыми и недостающими данными. Начнем с примера.

Индекс массы тела, или ИМТ, является стандартным показателем массы тканей человеческого организма. Он используется для классификации людей по следующим категориям: «недостаточный вес», «нормальный вес», «избыточный вес» и «ожирение» – и определяется как масса тела человека в килограммах, деленная на квадрат его роста в метрах. Человек попадает в категорию «избыточный вес», если его ИМТ равен или больше 25, а если это значение равно или превышает 30 – то в категорию «ожирение». Данные свидетельствуют о том, что по сравнению с людьми с нормальным весом люди с ожирением имеют повышенный риск развития диабета 2-го типа, ишемической болезни сердца, инсульта, остеоартрита, некоторых форм рака, депрессии и множества других болезней. По этой причине и существует значительный интерес к диетам для похудения.

При изучении одной такой диеты наблюдения проводились с недельными интервалами в течение шестимесячного периода, чтобы увидеть, улучшилась за это время ситуация и насколько. Наблюдения включали взвешивания, измерения толщины кожных складок и расчет ИМТ, но мы сосредоточимся на последнем показателе.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика