Читаем Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных полностью

Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили, что существует очевидный риск возникновения темных данных, поскольку мы не узнаем возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что узнать это вполне возможно при условии репрезентативности выборки. Более того, математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна быть огромной – тысячи человек для средних размеров страны может оказаться достаточно. Согласитесь, это совсем не то, что опрашивать миллионы.

Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого – начать с составления списка всех интересующих нас представителей населения (такой список называется рамкой выборки), затем случайным образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки часто создают на основе административных данных, например списков избирателей или результатов последней переписи.

Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным. Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не гарантирует того, что выборка свободна от негативного влияния темных данных (например, что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений поддается контролю. Это означает, что мы можем утверждать, например, следующее: «Почти для всех (то есть для 95 %) сформированных выборок среднее значение может отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер выборки, мы можем увеличить и уверенность с 95 %, скажем, до 99 %, и уменьшить диапазон отклонений на год или любую другую величину. А если вас беспокоит отсутствие абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним, что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).

Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором – один к миллиону.

К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика