Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем ли при этом искажений. Каждое из этих условий чувствительно к темным данным. Фактически число потенциальных рисков, связанных с темными данными, настолько велико, что составить их полный перечень просто невозможно. Тем не менее представление о типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора данных, а в следующей – то, как этих целей достигать, причем и то и другое сквозь призму нашей основной темы.

<p>Ошибки в определениях и измерениях</p>

Одна из фундаментальных причин возникновения темных данных – использование неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. Давайте разберем это на примерах.

Иммиграция

Опросы всегда проводят с конкретной целью, административные же данные собирают по множеству причин. Это означает, что административные данные могут не содержать ответа на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности статистики по долгосрочной международной миграции (LTIM). Национальная статистическая служба в соответствии с данными Отчета по международным пассажирским перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, зарегистрировавшихся для получения номеров социального страхования, за этот период составило 655 000 человек. Номера социального страхования – это личные счета всех, кто работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и взносов в систему национального страхования (куда относятся в том числе медицинские страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, что цифры Национальной статистической службы далеки от реальности. По этому поводу британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. Номера социального страхования – это простое и четкое отражение реального числа людей в этой стране, так как без такого номера вы не сможете ни легально работать, ни претендовать на получение пособия»[39].

Отчет по международным пассажирским перевозкам, который учитывает основные пассажиропотоки через британские воздушные и морские порты, а теперь еще и Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя это число представляет лишь небольшую часть людей, приезжающих в Великобританию, ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 000, и заявила, что на 95 % уверена в попадании истинных цифр в этот диапазон. Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа номеров социального страхования.

Когда Национальная статистическая служба подробно изучила расхождение между своей оценкой и числом номеров социального страхования, оказалось, что основной причиной этой разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 месяцев)[40]. Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные мигранты могут работать и подавать заявки на получение номеров социального страхования, но определяющим показателем в данном случае должна быть статистика LTIM (по долгосрочной международной миграции). Национальная статистическая служба заявила, что «различие определений этих данных является фундаментальным и невозможно обеспечить согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти регистрационные данные не могут служить показателем LTIM». Короче говоря, административные данные были полезны в тех вычислениях, для которых они были собраны, и не подходили для других целей. Неподходящие или несоответствующие определения эффективно скрывают интересующие нас данные и превращают их в темные данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные становятся или не становятся темными в зависимости от того, что вы хотите узнать.

Преступность
Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика