16.9 Взвешенное оценивание (оценка с весами)
В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
Возраст
|
Количество названных городов
|
3
|
2, 1, 0, 4
|
4
|
4, 2, 6
|
5
|
3, 8, 4, 7
|
6
|
3, 8, 9, 5
|
7
|
6, 10
|
8
|
7, 14, 10
|
9
|
9, 16, 10
|
10
|
9, 16, 15, 9
|
11
|
18, 12
|
12
|
22, 11, 14, 16
|
13
|
14, 21
|
14
|
20, 15, 23, 14, 26
|
Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле
snamen.sav.
Рис. 16.26: Диаграмма рассеяния
Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.
-
В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
-
Вы получите следующие результаты:
Model Summary (Сводная таблица по модели)
Model (Модель)
|
R
|
R Square (R-квадрат)
|
Adjusted R Square (Смещенный R-квадрат)
|
Std. Error of the Estimate (Стандартная ошибка оценки)
|
1
|
,879а
|
,772
|
,766
|
3,1623
|
a. Predictors:
(Conslant), Alter (Bлияющие переменные: (Константа), возраст)
Coefficients (Коэффициенты) а |
Model (Модель) |
Unstandardized Coefficients (He стандарти-зированные коэф-фициенты) |
Standardized Coefficients (Стандарти-зированные коэф-фициенты) |
Т |
Sig. (Значи-мость) |
В |
Std. Error (Станда-ртная ошибка) |
/3 (Beta) |
1
a. Dep |
(Constant) (Koнстанта) |
-2,722 |
1,273 |
|
-2,138 |
,039 |
Alter (Возраст) endent Variable |
1,569 (Зависим |
,138 ая перемен-ная) |
,879 |
11,357 |
,000 |
Коэффициент корреляции равен 0,879, а мера определённости 0,772.
В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.
Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.
Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как
1/хp
Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).
Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)
-
Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
-
Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).
Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:
Source variable |
. . ALTER |
Dependent variable. . STAEDTE |
Log- likelihood |
Function =-116,950816 |
POWERvalue= -2,000 |
log- likelihood |
Function =-115,170919 |
POWERvalue=-1,800 |
Log- likelihood |
Function =-113,434617 |
POWERvalue=-1,600 |
Log- likelihood |
Function =-111,746484 |
POWERvalue=-1,400 |
Log- likelihood |
Function =-110,111706 |
POWERvalue=-1,200 |
Log- likelihood |
Function =-108,536154 |
POWERvalue=-1,000 |
Log- likelihood |
Function =-107,026465 |
POWERvalue=-,800 |
Log- likelihood |
Function =-105,590111 |
POWERvalue=-,600 |
Log- likelihood |
Function =-104,235463 |
POWERvalue=-,400 |
Log- likelihood |
Function =-102,971835 |
POWERvalue=-,200 |
Log- likelihood |
Function =-101,809499 |
POWERvalue=,000 |
Log- likelihood |
Function =-100,759655 |
POWERvalue=,200 |
Log- likelihood |
Function =-99,834344 |
POWERvalue=,400 |
Log- likelihood |
Function =-99,046284 |
POWERvalue=,600 |
Log- likelihood |
Function =-98,408623 |
POWERvalue=,800 |
Log- likelihood |
Function =-97,934594 |
POWERvalue=1,000 |
Log- likelihood |
Function =-97,637078 |
POWERvalue=1,200 |
Log- likelihood |
Function =-97,528092 |
POWERvalue=1,400 |
Log- likelihood |
Function =-97,618231 |
POWERvalue=1,600 |
Log- likelihood |
Function =-97,916114 |
POWERvalue=1,800 |
Log- likelihood |
Function =-98,427890 |
POWERvalue=2,000 |
The Value ofPOWER MaximizingLog-likelihood Function =1,400 |
Source variable |
ALTER |
POWERvalue=:1,400 |
Dependent variable. . STAEDTE |
Multiple R, 90081 |
R Square,81146 |
Adjusted R Square ,80650 |
Standard Error
,68669 |
|
Analysis of Variance : |
|
|
|
DF Sum of Squares |
Mean Square |
|
Regression Residuals |
1 77,121477 38 17,918483 |
77,121477 ,471539 |
|
P = 163,55269 |
Signif F = ,0000 |
|
|
------- |
- — — Variables in the Equation — |
- - - - - |
- - - |
Variable |
В SE В Beta |
Т |
Sig Т |
ALTER (Constant) |
1,569996 ,122764 ,900813 -2,728584 ,840793 |
12,789 -3,245 |
,0000 ,0025 |
Log-likelihood |
Function = -97,528092 |
|
|
The following |
new variables are being created: |
|
|
Name |
Label |
|
|
WGT_1 |
Weight for STAEDTE from WLS, MOD_ |
1 ALTER** |
-1,400 |
Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен
1/(31,4)=0,2148
Весовые показатели были добавлены в исходный файл под переменной с именем
wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.
|