Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь
Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого – начать с составления списка всех интересующих нас представителей населения (такой список называется
Поначалу
Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором – один к миллиону.
К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных