20.5. Меры расстояния и меры сходства
Основой кластеризации (образования групп) наблюдений является дистанционная матрица и матрица подобия наблюдений. Так как расстояние (дистанция) также применяется и для оценки подобия,
то разница между этими двумя матрицами не велика. В зависимости от того, к какой шкале измерений относятся переменные, участвующие в анализе, SPSS предлагает различные дистанционные меры и меры подобия.
Переменные, относящиеся к интервальной шкале (метрические переменные)
Для переменных такого рода на выбор предлагается восемь различных мер расстояния и мер сходства, которые мы и рассмотрим далее. Примером расчёта послужат два наблюдения из файла
assess.sav, для которых расстояние и подобие должны быть рассчитаны с использованием переменных t3 и t4:
|
t3 |
t4 |
Отто P. |
5 |
4 |
Эльке М. |
4 |
10 |
Евклидова дистанция (расстояние)
Евклидова дистанция между двумя точками х и у — это наименьшее расстояние
между ними. В двух- или трёхмерном случае — это прямая, соединяющая данные точки. Общей формулой для
n-мерного случая (л переменных) является: 1
Сокращение dist, как и в следующей формуле, соответствует слову дистанция. Для приведенного примера получим
Квадрат евклидового расстояния (Squared Euclidean distance)
Этот вариант устанавливается по умолчанию. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности. Эта мера должна всегда использоваться при построении
кластеров при помощи центроидного и медианного методов, а также метода Варда (Ward-Method) (см. разд. 20.8.).
Для приведенного примера имеем cfot = (5 - 4)2 + (4-10)2 = 37
Косинус (Cosine)
Как и для корреляционных коэффициентов Пирсона, область значений этой меры находится между -1 и +1.
Для приведенного примера имеем
Корреляция Пирсона (Pearson Correlation)
Если кластеризация наблюдений осуществляется только на основании двух переменных, то корреляционный коэффициент Пирсона
со значениями находящимися в пределах от -1 до +1 не годится для использования в качестве меры подобия; он будет давать только значения -1 или +1.
Чебышев (Chebychev)
Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.
В приведенном примере абсолютная разность значений первой переменной равна 1, а второй переменной — 6. Поэтому разность Чебышева равна 6.
Блок (Block)
Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку — дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это
не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом.
Для нашего примера имеем dfst = |5 - 4| + |4 - 10| = 7
Минковский (Minkowski)
Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:
В SPSS при расчете этого расстояния допускается применение только квадратного корня, в то время как степень разности значений можно выбрать в пределах от 1 до 4.
Если эту степень взять равной 2, то получим евклидово расстояние.
Пользовательская мера
Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени:
Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4.
|