Эксперимент с красными и белыми бусинами, описанный в главе 11, можно легко модифицировать, чтобы в течение нескольких минут продемонстрировать нулевую корреляцию между числом дефектных изделий в выборке из партии и числом дефектных изделий в оставшейся части.
Математическое доказательство содержится в уравнении (4) из упражнения 1. Те же эксперименты демонстрируют наличие слабой корреляции между выборками и партиями.
В эксперименте надо всего лишь разделить на две части партию из 50 бусин, одна часть будет выборкой, другая – остатком (рис. 56). Для каждой партии сосчитайте и запишите число красных бусин в выборке и в остатке; затем верните 50 бусин этой партии в емкость. Перемешайте бусины и извлеките новую партию.
Полезно ввести некоторые обозначения. Партии постоянного объема N поступают с дефектами, распределенными биномиально со средним значением p. Из каждой партии извлекается без возврата выборка постоянного объема n. Считается число дефектов в каждой выборке и в каждом остатке. Пусть число дефектов в выборке будет s, а число дефектов в остатке – r (как и раньше). Тогда s и r будут случайными числами, для совместного распределения которых существует уравнение (4)). Пусть
= s/n, доля красных в выборке,
'= r/(N – n), доля красных в остатке,
E = p,
Var = pq/n,
E '= p,
Var '= pq/(N – n),
Cov (, ') = 0.
Дисперсии и ' уменьшаются с ростом N и n. Следовательно, большая выборка из крупной партии обеспечивает информацию о числе дефектов в оставшейся части совокупности и в партиях. Более того, мы можем для количественной проблемы (когда наша цель – дать характеристику партии по выборке) применить выборочную теорию для оценки партии и стандартных ошибок этих оценок.
Теперь взглянем на некоторые реальные результаты для выбранных объемов партий и выборок. На рис. 57–60 показана доля красных бусин в биномиальных выборках и остатках для выбранных значений N и n (данные были любезно подготовлены моим другом Бенджамином Теппингом на его компьютере). На самом деле выборка и оставшаяся часть – это выборки из одной и той же партии. На каждом графике представлены 100 выборок. Графики явно демонстрируют нулевую корреляцию между выборкой и остатком. Но чем больше выборка, тем лучше оценка доли красных бусин в выборках и остатках. Так, рис. 60 для выборки n = 1000 и остатка N – n = 9000 показывает, что большая выборка обеспечивает хорошую оценку как остатка, так и всей совокупности (выборка плюс остаток – в нашем случае чаша с красными и белыми бусинами), даже несмотря на то, что выборка и остаток некоррелированы. Удивительная особенность статистической теории состоит в том, что она позволяет нам по одной-единственной выборке, если та достаточно велика, вычислить размер поля, которое покрывает на рис. 57–60 в среднем 95 % (например) возникших точек. Таким образом, выборочная теория обеспечивает оценки остатков и всех партий, а также дает значения стандартных ошибок этих оценок[118].
Рис. 57. N= 50,n= 20. Здесь выборка и остаток близки по объему, 20 и 30 соответственно. График показывает отсутствие корреляции между долей красных бусин в выборке и долей красных бусин в остатке
Рис. 58. N= 600,n= 20. Здесь вариации в доле красных бусин в остатке явно намного меньше, чем в выборке. Причина в том, что остаток имеет объемN – n = 600 – 20 = 580, что многократно превышает объем выборки. Здесь снова корреляция между долей красных бусин в выборке и долей красных бусин в остатке, по-видимому, равна нулю
Рис. 59. N= 600,n= 200. Здесь видно, что происходит, когда мы увеличиваем объем выборки до 200 и уменьшаем объем остатка до 400. Этот график, как и раньше, иллюстрирует нулевую корреляцию между долей красных бусин в выборке и долей красных бусин в остатке
Рис. 60. N= 10 000,n= 1000. Опять никакой корреляции
Сокращенный список рекомендуемой литературы
George Barnard, «Sampling inspection and statistical decisions», Journal of the Royal Statistical Society, ser. B, vol. 16 (1954): 151–171 (Discussion of Mood's theorem).