| 
 
16.9 Взвешенное оценивание (оценка с весами) 
В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
 
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
 
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
 
| 
Возраст
 | 
Количество названных городов
 |  
| 
3
 | 
2, 1, 0, 4
 |  
| 
4
 | 
4, 2, 6
 |  
| 
5
 | 
3, 8, 4, 7
 |  
| 
6
 | 
3, 8, 9, 5
 |  
| 
7
 | 
6, 10
 |  
| 
8
 | 
7, 14, 10
 |  
| 
9
 | 
9, 16, 10
 |  
| 
10
 | 
9, 16, 15, 9
 |  
| 
11
 | 
18, 12
 |  
| 
12
 | 
22, 11, 14, 16
 |  
| 
13
 | 
14, 21
 |  
| 
14
 | 
20, 15, 23, 14, 26
 |  
Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле
snamen.sav.
 
  
Рис. 16.26:  Диаграмма рассеяния
 
Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.
 
  
    
 В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
    
 Вы получите следующие результаты:
 
Model Summary (Сводная таблица по модели)
 
| 
Model (Модель)
 | 
R
 | 
R Square (R-квадрат)
 | 
Adjusted R Square (Смещенный R-квадрат)
 | 
Std. Error of the Estimate (Стандартная ошибка оценки)
 |  
| 
1
    | 
,879а 
 | 
,772 
 | 
,766
   | 
3,1623 
 |  a. Predictors:
(Conslant), Alter (Bлияющие переменные: (Константа), возраст)   
   
    |  
        Coefficients (Коэффициенты)  а   |   
    |   
        Model (Модель)  |   
        Unstandardized Coefficients (He стандарти-зированные коэф-фициенты)  |   
        Standardized Coefficients (Стандарти-зированные коэф-фициенты)  |   
        Т   |   
        Sig. (Значи-мость)  |   
    |   
        В  |   
        Std. Error (Станда-ртная ошибка)  |   
        /3 (Beta)  |   
    |   
        1    
        a. Dep  |   
        (Constant) (Koнстанта) |   
        -2,722  |   
        1,273  |  
         |   
        -2,138  |   
        ,039  |   
    |   
        Alter (Возраст) endent Variable  |   
        1,569 (Зависим  |   
        ,138 ая перемен-ная)  |   
        ,879  |   
        11,357  |   
        ,000  |  
Коэффициент корреляции равен 0,879, а мера определённости 0,772.
 
В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.
 
Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.
 
Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как
 1/хp 
Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).
 
  
Рис. 16.27:  Диалоговое окно Weight Estimation (Весовая цепка)
 
  
    
 Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
    
 Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).
 
Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:
 
   
    |   
        Source variable  |   
        . . ALTER  |   
        Dependent variable. . STAEDTE  |   
    |   
        Log- likelihood  |   
        Function =-116,950816 |   
        POWERvalue= -2,000 |   
    |   
        log- likelihood  |   
        Function =-115,170919 |   
        POWERvalue=-1,800 |   
    |   
        Log- likelihood  |   
        Function =-113,434617 |   
        POWERvalue=-1,600 |   
    |   
        Log- likelihood  |   
        Function =-111,746484 |   
        POWERvalue=-1,400 |   
    |   
        Log- likelihood  |   
        Function =-110,111706 |   
        POWERvalue=-1,200 |   
    |   
        Log- likelihood  |   
        Function =-108,536154 |   
        POWERvalue=-1,000 |   
    |   
        Log- likelihood  |   
        Function =-107,026465 |   
        POWERvalue=-,800 |   
    |   
        Log- likelihood  |   
        Function =-105,590111 |   
        POWERvalue=-,600 |   
    |   
        Log- likelihood  |   
        Function =-104,235463 |   
        POWERvalue=-,400 |   
    |   
        Log- likelihood  |   
        Function =-102,971835 |   
        POWERvalue=-,200 |   
    |   
        Log- likelihood  |   
        Function =-101,809499 |   
        POWERvalue=,000 |   
    |   
        Log- likelihood  |   
        Function =-100,759655 |   
        POWERvalue=,200 |   
    |   
        Log- likelihood  |   
        Function =-99,834344 |   
        POWERvalue=,400 |   
    |   
        Log- likelihood  |   
        Function =-99,046284 |   
        POWERvalue=,600 |   
    |   
        Log- likelihood  |   
        Function =-98,408623 |   
        POWERvalue=,800 |   
    |   
        Log- likelihood  |   
        Function =-97,934594 |   
        POWERvalue=1,000 |   
    |   
        Log- likelihood  |   
        Function =-97,637078 |   
        POWERvalue=1,200 |   
    |   
        Log- likelihood  |   
        Function =-97,528092 |   
        POWERvalue=1,400 |   
    |   
        Log- likelihood  |   
        Function =-97,618231 |   
        POWERvalue=1,600 |   
    |   
        Log- likelihood  |   
        Function =-97,916114 |   
        POWERvalue=1,800 |   
    |   
        Log- likelihood  |   
        Function =-98,427890 |   
        POWERvalue=2,000 |   
    |   
        The Value ofPOWER MaximizingLog-likelihood Function =1,400 |   
    |   
        Source variable   |   
        ALTER  |   
        POWERvalue=:1,400 |   
    |   
        Dependent variable. . STAEDTE  |   
    |   
        Multiple R, 90081 |   
    |   
        R Square,81146 |   
    |   
        Adjusted R Square ,80650  |   
    |   
        Standard Error  
        ,68669 |   
    |  
         |   
        Analysis of Variance :  |  
         |  
         |   
    |  
         |   
        DF Sum of Squares  |   
        Mean Square  |  
         |   
    |   
        Regression Residuals  |   
        1 77,121477 38 17,918483  |   
        77,121477 ,471539  |  
         |   
    |   
        P = 163,55269  |   
        Signif F = ,0000  |  
         |  
         |   
    |   
        -------  |   
        - — — Variables in the Equation —  |   
        - - - - -  |   
        - - -  |   
    |   
        Variable  |   
        В SE В Beta  |   
        Т  |   
        Sig Т  |   
    |   
        ALTER (Constant)  |   
        1,569996 ,122764 ,900813 -2,728584 ,840793  |   
        12,789 -3,245  |   
        ,0000 ,0025  |   
    |   
        Log-likelihood  |   
        Function = -97,528092  |  
         |  
         |   
    |   
        The following  |   
        new variables are being created:  |  
         |  
         |   
    |   
        Name  |   
        Label  |  
         |  
         |   
    |   
        WGT_1  |   
        Weight for STAEDTE from WLS, MOD_  |   
        1 ALTER**  |   
        -1,400  |  
Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен
 1/(31,4)=0,2148 
 
Весовые показатели были добавлены в исходный файл под переменной с именем
wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.
 
 
 
 |