Latvian | Russian
   
Самоучитель по SPSS
Литература по SPSS
Скачать SPSS

PSPP

LimeSurvey survey application

Необходимый файл:
europa.sav
 

Иерархический кластерный анализ с предварительным факторным анализом

Back Menu Forward

20.4. Иерархический кластерный анализ с предварительным факторным анализом

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная Значение
land Страна
sb Процент городского населения
lem Средняя продолжительность жизни мужчин
lew Средняя продолжительность жизни женщин
ks Детская смертность на 1000 новорожденных
so Количество часов ясной погоды в году
nt Количество дней пасмурной погоды в году
tjan Средняя дневная температура в январе
tjul Средняя дневная температура в июле

Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ, который можно провести, выбрав в меню Analyze (Анализ) ► Data Reduction (Преобразование данных) ► Factor... (Факторный анализ)

Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem, lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Можно рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Указанные переменные уже включены в файл europa.sav. Высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) / Reports (Отчёты) / Case Summaries... (Итоги по наблюдениям). Они выглядят следующим образом:

Case Summaries a (Итоги по наблюдениям)

LAND (Страна) Lebenserwartung (Ожидаемая продолжительность жизни) Klima (Климат)
1 ALBA -1,78349 ,57155
2 BELG ,55235 -,57937
3 BULG -,43016 -,13263
4 DAEN ,97206 -,23453
5 DDR ,26961 -,33511
6 DEUT ,19121 -,44413
7 FINN -,30226 -1,28467
8 FRAN 1,05511 1,04870
9 GRIE ,12794 2,65654
10 GROS ,75443 -,05221
11 IRLA ,16370 -,66514
12 ISLA 1,75315 -,97421
13 ITAL ,40984 1,68933
14 JUGO -2,63161 -,44127
15 LUXE -.16469 -,98618
16 NIED 1,31001 -,29362
17 NORW ,96317 -,46987
18 OEST -,20396 -,31971
19 POLE -,65937 -,92081
20 PORT -1,10510 1,59478
21 RUMA -1,32450 ,09481
22 SCHD 1,22645 -,20543
23 SCHZ ,56289 -,45454
24 SOWJ -,67091 -1,32517
25 SPAN ,83627 1,91193
26 TSCH -,59407 -,40632
27 TUER -,52049 1,04424
28 UNGA -,75761 -,08695
Total N 28 28 28

a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).

Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

  • Выберите в меню Analyze (Анализ) ► Classify (Классифицировать) ► Hierarchical Cluster... (Иерархический кластерный анализ)

  • Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).

  • После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  • Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  • Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

Agglomeration Schedule (Порядок агломерации)

Stage (Шаг) Cluster Combined
(Объединение в кластеры)
Coefficients (Коэффициенты) Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)

Next Stage (Следующий шаг)
Cluster 1 (Кластер 1) Cluster 2 (Кластер 2) Cluster 1 (Кластер 1) Cluster 2 (Кластер 2)
1 16 22 1,476 0 0 8
2 2 23 1,569 0 0 10
3 5 6 1,803 0 0 5
4 4 17 5,546 0 0 8
5 5 11 8,487 3 0 10
6 3 18 8,617 0 0 12
7 7 15 ,108 0 0 15
8 4 16 ,118 4 1 13
9 26 28 ,129 0 0 12
10 2 5 ,148 2 5 18
11 19 24 ,164 0 0 15
12 3 26 ,183 6 9 20
13 4 10 ,228 8 0 18
14 13 25 ,231 0 0 19
15 7 19 ,254 7 11 20
16 1 21 ,438 0 0 22
17 20 27 ,645 0 0 22
18 2 4 ,648 10 13 21
19 8 13 ,810 0 14 23
20 3 7 ,939 12 15 24
21 2 12 1,665 18 0 24
22 1 20 1,793 16 17 25
23 8 9 1,839 19 0 27
24 2 3 2,229 21 20 26
25 1 14 4,220 22 0 26
26 1 2 5,925 25 24 27
27 1 8 6,957 26 23 0

Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.

Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).

Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.

Cluster Membership (Принадлежность к кластеру)

Case (Случай) 5 Clusters
(5 кластеров)
4 Clusters
(4 кластера)
3 Clusters
(3 кластера)
2 Clusters
(2 кластера)
1:ALBA 1 1 1 1
2:BELG 2 2 2 1
3:BULG 3 2 2 1
4:DAEN 2 2 2 1
5:DEUT 2 2 2 1
6:DDR 2 2 2 1
7:FINN 3 2 3 1
8:FRAN 4 3 3 2
9:GRIE 4 3 3 2
10:GROS 2 2 2 1
11:IRLA 2 2 2 1
12:ISLA 2 2 2 1
13:ITAL 4 3 3 2
14:JUGO 5 4 1 1
15:LUXE 3 2 2 1
16:NIED 2 2 2 1
17:NORW 2 2 2 1
18:OEST 3 2 2 1
19:POLE 3 2 2 1
20:PORT 1 1 1 1
21:RUMA 1 1 1 1
22:SCHD 2 2 2 1
23:SCHZ 2 2 2 1
24:SOWJ 3 2 2 1
25:SPAN 4 3 3 2
26:TSCH 3 2 2 1
27:TUER 1 1 1 1
28:UNGA 3 2 2 1

Back Menu Forward


Top.LV Latvijas Reitingi e-TIRGUS.LV on-line.lv Izglītība Education Яндекс.Метрика
Клиенты

Roche

TNS Latvija

Latvijas Pilsoniskā alianse

LU FSI

Sendigo

Prime Mail

Valodu mācību centrs
Карта сайта
www.citariga.lv || www.limesurvey.ru || www.exsobalt.lv