6.3. Медиана для концентрированных данных
Для данных, имеющих форму частотной таблицы, определение медианы и остальных процентилей обычным методом будет слишком неточным. В таких случаях есть возможность вычислить медиану
и любые другие процентили более точным методом. Мы поясним это на примере стоматологических данных.
Кроме переменных schule и mhfreq, которые определяют уровень образования и то, сколько раз в день обследуемый чистит зубы,
этот файл содержит шесть переменных cpitn1 — cpitn6, которые указывают степень пародонтального заболевания каждой из шести частей челюсти — так называемый параметр CPITN,
задаваемый с помощью следующей кодировочной таблицы:
0 |
Здоровый пародонт |
1 |
Кровоточивость |
2 |
Зубные отложения |
3 |
Глубина десенных карманов 3,5-5,5 мм |
4 |
Глубина десенных карманов 6 мм и более |
-
С помощью команд меню Analyze (Анализ) / Descriptive Statistics / (Дескриптивные статистики) / Frequencies (Частоты) создайте частотную таблицу, к примеру, для переменной cpitn1.
Если задать вычисление среднего значения и медианы, мы получим следующий результат:
Statistics (Статистика)
cpitn1
N |
Valid (Допустимые) |
2548 |
|
Missing (Утерянные) |
0 |
Mean (Среднее) |
|
2,24 |
Median (Медиана) |
|
2,00 |
cpitn1
|
|
Frequency (Частота) |
Percent (Проценты) |
Valid Percent (Допустимые проценты) |
Cumulative Percent (Накопленные проценты) |
Valid (Допустимые) |
Gesund (Здоровый) |
109 |
4,3 |
4,3 |
4,3 |
Blutung (Кровоточивость) |
389 |
15,3 |
15,3 |
19,5 |
Zahnstein (Отложения) |
921 |
36,1 |
36,1 |
55,7 |
Taschentiefe 3,5-5,5 Глубина карманов 3,5-5,5 |
1042 |
40,9 |
40,9 |
96,6 |
Taschentiefe >=6 Глубина карманов >=6 |
87 |
3,4 |
3,4 |
100,0 |
|
Total (Всего) |
2548 |
100,0 |
100,0 |
|
При определении медианы обычным методом ее значение равно 2. Это значение, хотя формально и правильное, но дает совершенно неудовлетворительный, недостаточно значимый результат.
В данном случае, когда данные являются концентрированным, для уточнения медианы применяется следующая расчетная формула:

Здесь:
n - Количество измеренных значений;
m - Класс, в котором находится медиана;
u - Нижняя граница класса m;
fm - Абсолютная частота в классе m;
Fm-1 - Накопленная частота вплоть до предыдущего класса m — 1;
B - Ширина класса.
Следовательно, решающее значение имеет правильный выбор границ классов; их следует выбирать так, чтобы значения кодовых чисел соответствовали середине каждого класса.
В данном примере для границ классов следует выбрать значения
-0,5 0,5 1,5 2,5 3,5 4,5
Ширина класса равна 1.
Следовательно,
n = 2548;
m = 3 (так как медиана находится в третьем классе);
u = 1,5;
fm = 921;
Fm-1 = 109 + 389 = 498;
b = 1;
Если сравнить это значение со средним значением (2,24), то можно установить следующее правило — оказывается, что при распределении со сдвигом вправо (как в данном случае) медиана больше среднего значения.
Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.
В этом случае мы получим точное значение медианы (2,32).
По определению, медиана — это значение, выше и ниже (правее и левее) которого расположено по 50% всех значений, если они упорядочены по величине. Обобщая эту характеристику,
мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10% всех значений (а выше расположено 90% значений).
Чаше всего применяются процентили 25% и 75%, называемые также соответственно первым и третьим квартилями.
В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.
Формула вычисления процентиля для любого значения:
Здесь:
n - Класс, в котором находится процентиль;
m - Нижняя граница класса m;
P - Процентное значение процентиля;
Нm - Процентная частота в классе m-1;
Hm-1 - Процентная накопленная частота в классе m-1;
b - Ширина класса;
Для процентиля 50 % (Р = 50) после некоторых преобразований получается формула для медианы, приведенная выше.
В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных
используется модифицированный способ расчета (см. раздел 22.1.).
|