Читаем o fd19e75e1d80dff4 полностью

Джан Фупгони, основатель и председатель компании Comscore, Inc.

Что делать, если ваша система слишком большая и сложная, чтобы собирать данные по

каждому процессу?

Иногда не стоит измерять все потоки. Если вы управляете масштабируемой системой,

зачастую невозможно проверить все элементы и найти все ошибки. Как быстро определить

возможные проблемы, если система обрабатывает огромное количество данных и заключает

миллионы сделок?

Выборка — это определенная случайным образом часть некоего целого, способная

рассказать о поведении всей системы. Если вы когда-нибудь сдавали кровь на анализ, вы

прекрасно представляете, что такое выборка. Врач или медсестра берет небольшое количество

крови и отправляет ее в лабораторию. Если тест покажет, что в этом образце наблюдаются

268

какие-то аномалии, вероятнее всего, они присутствуют и во всей остальной крови в вашем

организме.

Выборка помогает определить системные ошибки, не тратя время и деньги на анализ всей

системы. Если вы производите мобильные телефоны, нет необходимости проверять каждое

устройство, сходящее с конвейера: проверка каждого двадцатого позволит в короткие сроки

оценить положение дел и в случае необходимости подкорректировать систему. В зависимости от

того, насколько быстро и точно нужно выявить ошибки, вы можете уменьшить или увеличить

частоту выборки.

Одна из форм выборки — проверка без предупреждения. Многие магазины периодически

нанимают «таинственных покупателей», которые проверяют, насколько хорошо персонал

выполняет свою работу. Они интересуются ассортиментом, задают кучу вопросов, хотят вернуть

купленный товар и вообще действуют на нервы. А поскольку работники магазина не знают,

какие клиенты настоящие, а какие подставные, такой метод оказывается намного эффективнее

постоянного пристального контроля за каждым отдельным служащим.

Однако если образец был взят не случайным образом или не является «представителем»

общего, совокупности, результаты выборки могут быть неверными. Ясно, что при оценке

среднего дохода семьи мы получим разные результаты, если возьмем жителей Манхэттена и

Западной Виргинии. Чем больше у вас образцов, выбранных случайным образом, тем вернее

будут ваши результаты.

Доверительный интервал

Все делают общие выводы из одного примера. По крайней мере, я поступаю именно так.

Стивен Браст, писатель-фантаст

Представьте, что вы купили волшебную монету, которая чаще всего падает орлом вверх. Как

узнать, что это не подделка? Конечно, нужно проверить ее в действии.

Давайте представим, что, подбросив ее пять раз, вы получили два орла и три решки. Так

что, нужно ее вернуть?

Доверительный интервал представляет собой вероятность того, что определенный анализ

окажется правильным. Прежде чем очернять репутацию продавца, стоит удостовериться в

точности ваших результатов.

Чем больше образцов вы возьмете, тем выше доверительный интервал данного измерения.

Объем выборки увеличивается каждый раз, когда вы подбрасываете монету. Чем он больше, тем

точнее ваши измерения и, соответственно, тем больше к ним доверия.

Подбросив монету всего пять раз, вы не можете быть полностью уверены в том, что это

подделка: объем выборки слишком мал. Если же вы подбросите ее тысячу раз и она в 70 %

269

случаев упадет решкой вверх, значит монета действительно неправильная, но все равно она не

подделка мошенника (скорее всего, вам досталась монета, которая в большинстве случаев

падает не орлом вверх, а решкой).

Я не буду детально описывать, как именно рассчитывается доверительный интервал, но

сделать это довольно легко, особенно если вы умеете пользоваться электронными таблицами или

базами данных. Начинающим я рекомендую почитать книгу Principles of Statistics («Принципы

статистики»).

Помните о том, что результатам измерений, основанных на малых объемах выборки, не стоит

доверять. Каждый раз, когда вы сталкиваетесь с выборкой, основанной на незнакомых вам

данных, обязательно проверяйте ее объем и способ отбора образцов. Чем больше образцов вы

соберете, тем больше доверия будут вызывать результаты анализа.

Соотношение

Тот, кто отказывается делать расчеты, обречен говорить чепуху.

Джон Маккарти, программист и когнитивист, автор термина «искусственный интеллект»

Соотношение — это метод сравнения двух показателей или результатов измерения друг с

Перейти на страницу: