Читаем Статистика и котики полностью

2. На основе этих признаков вы вычисляете степень похожести котиков (чаще используется термин расстояние).

3. Котики последовательно объединяются в группы. Это может происходить так, как было описано выше (так называемый «метод ближайшего соседа»), а может и по другим принципам.

4. По итогу вы получаете график, называемый дендрограммой. По ней вы можете определить, на какие группы делятся ваши котики и какие котики к какой группе принадлежат. Единственное — если котиков очень много, воспринимать такую дендрограмму довольно сложно.

Напомним, что иерархический кластерный анализ позволяет вам разбить котиков на группы, когда вы не знаете, сколько у вас их должно получиться. А если знаете, то более адекватным будет использование метода k-средних.

Идея достаточно проста. Предположим, вы подозреваете, что все котики делятся на три различающиеся размером группы. Тогда у каждой группы существует свой представитель, который обладает самым типичным для группы размером. Такой котик называется центроидом. И основная задача алгоритма k-средних — найти, каким именно размером эти центроиды обладают.

Происходит это пошагово. На первом этапе мы произвольно расставляем центроиды.

На втором этапе вычисляются расстояния от каждого котика до каждого центроида.

На третьем — определяем принадлежность котиков к тому или иному центроиду. Иными словами — смотрим, какой котик к какому центроиду ближе.

И на четвертом этапе мы вычисляем средний размер котиков при каждом центроиде. И центроид перемещается в этот средний размер.

А потом алгоритм повторяется со второго шага. Происходит это потому, что некоторые котики перебегают от одного центроида к другому, вследствие чего положение центроидов также будет меняться.

Происходит это ровно до тех пор, пока после очередного повторения положение центроидов останется неизменным.

Важно отметить следующие вещи. Во-первых, k-средних может работать сразу по нескольким переменным. Для этого, как и для иерархического кластерного анализа, вычисляется расстояние, но уже не между отдельными котиками, а между конкретным котиком и центроидом.

Во-вторых, результат k-средних сильно зависит от начального положения центроидов. Некоторые такие положения могут приводить к довольно-таки бредовым результатам. Поэтому k-средних лучше проводить несколько раз подряд. Кстати, если вы при этом каждый раз получаете разные результаты, стоит задуматься о смене количества групп.

НЕМАЛОВАЖНО ЗНАТЬ!

Метрики расстояний

Конкретные результаты кластерного анализа во многом зависят от того, какую метрику расстояния вы выбрали. А их существует несколько. Самая простая из них — эвклидово — есть просто кратчайший путь между двумя точками.

Иногда вместо него используют так называемое Манхэттенское расстояние. Названо оно было в честь Манхэттена, а точнее — в честь его планировки. Прогуливаясь по Манхэттену, вы не можете попасть из точки А в точку Б по кратчайшему пути. Если только вы не можете проходить сквозь стены, вам обязательно придется идти вдоль его параллельно-перпендикулярных улиц.

Заметим, что синий и красный пути абсолютно одинаковы. Манхэттенское расстояние лучше использовать в случаях, если вы подозреваете, что в вашей выборке есть выбросы.

Последняя наиболее часто используемая метрика — это расстояние Чебышева. Она немного похожа на Манхэттенское расстояние. Но только чуть-чуть. Потому что его можно определить как максимальное расстояние, которое котику нужно будет пройти вдоль одной улицы.

<p>Глава 14.</p><p>О котиковом характере</p><p><strong>или основы факторного анализа</strong></p>

Безусловно, каждый котик — уникальная и сложная личность. У него есть индивидуальные желания и предпочтения, а также собственный взгляд на мир и свое место в нем. Впрочем, некоторые психологические особенности (например, любовь к еде) являются общими для всех котиков.

Однако, к большому сожалению, в отличие от всяких внешних признаков (к примеру таких, как размер или пушистость), психологические особенности не так просто измерить, поскольку их нельзя увидеть. И потому мы нуждаемся в специальных методах для их выявления.

В качестве примера вспомним, что большинство котиков склонны точить когти о диван и время от времени царапать своих хозяев. При этом мы наблюдаем линейную положительную взаимосвязь между этими явлениями — котики, которые дерут большее количество диванов, склонны оставлять большее количество царапин.

Глядя на эту взаимосвязь, мы можем предположить, что за этими склонностями стоит некоторая скрытая причина, которая вполне может являться особой чертой котикового характера. Назовем ее царапучестью. Чем выше царапучесть, тем больше котики склонны царапать диваны и людей.

Перейти на страницу:

Похожие книги

1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих
1С: Управление небольшой фирмой 8.2 с нуля. 100 уроков для начинающих

Книга предоставляет полное описание приемов и методов работы с программой "1С:Управление небольшой фирмой 8.2". Показано, как автоматизировать управленческий учет всех основных операций, а также автоматизировать процессы организационного характера (маркетинг, построение кадровой политики и др.). Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, формировать разнообразные отчеты, выводить данные на печать. Материал подан в виде тематических уроков, в которых рассмотрены все основные аспекты деятельности современного предприятия. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов. Все приведенные в книге примеры и рекомендации основаны на реальных фактах и имеют практическое подтверждение.

Алексей Анатольевич Гладкий

Экономика / Программное обеспечение / Прочая компьютерная литература / Прочая справочная литература / Книги по IT / Словари и Энциклопедии
Управление проектами. Фундаментальный курс
Управление проектами. Фундаментальный курс

В книге подробно и систематически излагаются фундаментальные положения, основные методы и инструменты управления проектами. Рассматриваются вопросы управления программами и портфелями проектов, создания систем управления проектами в компании. Подробно представлены функциональные области управления проектами – управление содержанием, сроками, качеством, стоимостью, рисками, коммуникациями, человеческими ресурсами, конфликтами, знаниями проекта. Материалы книги опираются на требования международных стандартов в сфере управления проектами.Для студентов бакалавриата и магистратуры, слушателей программ системы дополнительного образования, изучающих управление проектами, аспирантов, исследователей, а также специалистов-практиков, вовлеченных в процессы управления проектами, программами и портфелями проектов в организациях.

Коллектив авторов

Экономика