статистика: 1) дисциплина, занимающаяся изучением мира на основе данных; как правило, включает цикл решения проблем наподобие PPDAC; 2) какая-либо функция от данных. Например, наибольшее значение выборки, выборочное среднее, интерквартильный размах, выборочная дисперсия – различные статистики;
статистическая значимость: наблюдаемый эффект считается статистически значимым, когда P-значение, соответствующее нулевой гипотезе, меньше некоторого заранее установленного уровня, например 0,05 или 0,001. Это означает, что такой экстремальный результат маловероятен при справедливости нулевой гипотезы и всех прочих предположениях при моделировании;
статистическая модель: математическое представление вероятностного распределения какого-либо набора случайных величин, содержащее неизвестные параметры;
статистическое заключение: процесс использования данных выборки, для того чтобы что-либо узнать о неизвестных параметрах, лежащих в основе статистической модели;
стохастическая неопределенность: неизбежная непредсказуемость будущего, также известная как случайность, случай и так далее;
судебная эпидемиология: использование знаний о причинах заболеваний в популяциях при вынесении суждений о случаях болезни у отдельных людей;
счетные переменные: переменные, которые могут принимать целочисленные значения 0, 1, 2 и так далее или быть взаимнооднозначно сопоставлены с такими значениями;
тест перестановки/рандомизации: форма критерия для проверки гипотезы, когда распределение тестовой статистики при нулевой гипотезе получается не с помощью детальной статистической модели для случайных величин, а путем перестановки «меток» данных. Предположим, что нулевая гипотеза такова: какая-то «метка» (например, мужчина это или женщина) не связана с результатом обследования. Тесты рандомизации исследуют все возможные способы перестановки таких меток для отдельных элементов данных, при этом при нулевой гипотезе все они равновероятны. Для каждой перестановки вычисляется тестовая статистика, а P-значение определяется как доля тех перестановок, где получаются более экстремальные значения тестовой статистики, нежели реально наблюдаемые;
уровень ложноположительных результатов: при проверке многих гипотез доля положительных утверждений, которые оказываются ложноположительными;
фрейминг: выбор способа подачи информации, влияющего на впечатление аудитории;
центральная предельная теорема: общее название нескольких теорем, утверждающих, что при определенных условиях выборочное среднее для множества случайных величин сходится к нормальному распределению вне зависимости (за некоторыми исключениями) от исходного распределения этих случайных величин. Если у нас есть
цикл PPDAC: предлагаемая структура «цикла данных», куда входят
чувствительность: доля «положительных» случаев, которые правильно определены при классификации или тестировании; часто называется долей истинно положительных наблюдений. Единица минус чувствительность – это доля ложноотрицательных наблюдений (ошибка второго рода);
шансы, отношения шансов: если вероятность какого-то события равна
эпидемиология: изучение скорости распространения и причин заболеваемости;
эпистемическая неопределенность: недостаток знаний о фактах, числах или научных гипотезах.
Благодарности
Все идеи, возникающие в ходе долгой карьеры в статистике, – результат вдохновляющих бесед с коллегами. Хотя перечислить всех, у кого я их позаимствовал, сложно даже мне как статистику, короткий список я все же приведу, это Ники Бест, Шейла Бёрд, Дэвид Кокс, Филип Дэвид, Стивен Эванс, Эндрю Гельман, Тим Харфорд, Кевин Макконвей, Уэйн Олдфорд, Сильвия Ричардсон, Этан Шах, Адриан Смит и Крис Вайлд. Я искренне благодарен вам и многим другим людям за поддержку и вдохновение.