Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Абстрактное представление EM-алгоритма также помогло лучшему пониманию проблемы в целом. В главе 1 я упомянул, что любые неизвестные характеристики генеральной совокупности могут рассматриваться как недостающие значения и, следовательно, как темные данные. Это очень плодотворная идея. Такими базовыми характеристиками могут быть и какие-то простые значения (например, средний рост населения), и значения комплексные, включая множественные ненаблюдаемые латентные переменные, которые связаны сложным образом. Классическим примером является траектория движущегося объекта, когда мы не можем наблюдать его точное положение в каждый момент времени, а имеем лишь значения, искаженные ошибкой измерения. Во многих случаях лежащие в основе темные данные являются не просто тем, что не наблюдалось – они по своей сути ненаблюдаемы. Это скрытые, или латентные, переменные (отсюда модели с латентными переменными). Но ненаблюдаемость не означает, что на такие данные нельзя пролить свет – собственно, в этом и состоит основная цель статистических методов. Применение статистических инструментов к данным, сгенерированным в реальности, может кое-что поведать об этой реальности: данные начинают излучать свет и освещают все вокруг.

В этом разделе мы разобрали то, как можно анализировать данные и получить представление о процессах, которые их генерируют, даже если имеются темные данные. Мы рассмотрели целый ряд общих методов: от самых простых способов работы с доступными данными и исключения неполных записей до многообразных методов вменения, которые призваны определить, какими были бы недостающие данные, если бы были измерены. Мы также рассмотрели важную классификацию, описывающую структуру отсутствующих данных, – связаны ли они и как именно с данными, которые наблюдались. Эта классификация состоит из трех категорий – NDD, SDD и UDD – и помогает более глубокому пониманию вопросов борьбы с темными данными. В следующей главе мы изменим тактику и вместо того, чтобы бороться, посмотрим, как можно использовать темные данные. В частности, мы для начала оглянемся назад и посмотрим на некоторые идеи с новой точки зрения. Но прежде скажем несколько слов о данных, которые мы можем видеть, но которые являются обманчивыми.

<p>Неправильное число!</p>

До сих пор в этой главе мы имели дело с недостающими данными. Но мы уже знаем, что данные могут являться темными и по другим причинам, например DD-тип 10: ошибки измерения и неопределенность, DD-тип 9: обобщение данных и DD-тип 7: данные, меняющиеся со временем. Рассмотрение этих типов позволит нам более широко взглянуть на проблему темных данных и поможет исследовать три основных шага в работе с ними, а именно: предотвращение, обнаружение и исправление.

Предотвращение

Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их возникновению на этапе сбора данных. Что касается понимания, то оно приходит с опытом – вы или сами совершаете ошибки, или, что куда приятнее, учитесь, глядя, как их совершают другие. (Однажды я услышал, как кто-то из увольнявшихся из компании сказал менеджеру: «Спасибо, что предоставили мне так много возможностей учиться на чужих ошибках».)

Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно осуществлять несложные проверки. Например, если речь идет о дате рождения, то для машины не составит труда проверить, является ли она допустимой. Бдительность не бывает излишней. Я слышал об одном случае, когда набор данных имел странный пик по датам рождения, приходившийся на 11 ноября 1911 г. Как выяснилось, дату рождения требовалось вводить шестью цифрами в формате день/месяц/год и программисты были в курсе, что люди иногда вводят 00/00/00, если не хотят указывать свой день рождения. Поэтому они запрограммировали форму сбора данных таким образом, что, если кто-то вводил шесть нулей, машина отклоняла дату и требовала повторить попытку. Но программисты не учли одного: в этот момент те, кто особенно не хотел «светить» свой день рождения, делали простейшую вещь, которая первой приходит в голову – они вбивали последовательность из шести единиц, что принималось базой данных и выглядело как 11 ноября 1911 г.

Дублирование данных может быть использовано в качестве общей стратегии предотвращения ошибок. Оно подразумевает ввод данных или по крайней мере какой-то их части более чем одним способом. Распространенным методом, особенно при проведении клинических испытаний, является система двойного ввода данных, когда значения переносятся (например, из бумажных форм сбора данных в компьютер) двумя людьми независимо. Вероятность того, что они совершат одну и ту же ошибку в одном и том же месте, ничтожно мала.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика