36.Дисперсионный анализ. Дисперсионный анализ применяют для изучения
влияния качественных признаков на количественную переменную. Например, пусть
имеются k выборок результатов измерений количественного показателя
качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j),
x2(j), … , xn(j)), где j
– номер станка, j = 1, 2, …, k, а n – объем выборки. В
распространенной постановке дисперсионного анализа предполагают, что результаты
измерений независимы и в каждой выборке имеют нормальное распределение N(m(j),
σ2) с одной и той же дисперсией. Проверка однородности качества
продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится
к проверке гипотезы H0: m(1) = m(2) = … = m(k).
В дисперсионном анализе разработаны методы проверки подобных гипотез. Гипотезу
Н0 проверяют против альтернативной гипотезы Н1,
согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой
гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером: (1)
где s2 – выборочная дисперсия в объединенной выборке,
т.е.
Далее, s2(j) – выборочная дисперсия в j-ой
группе,
Таким образом, первое слагаемое в правой части формулы (1) отражает внутригрупповую дисперсию.
Наконец, - межгрупповая
дисперсия,
Область прикладной статистики, связанную с разложениями дисперсии типа
формулы (1), называют дисперсионным анализом. В качестве примера задачи
дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0
в предположении, что результаты измерений независимы и в каждой выборке имеют
нормальное распределение N(m(j), σ2) с одной и
той же дисперсией. При справедливости Н0 первое слагаемое в
правой части формулы (1), деленное на σ2, имеет распределение
хи-квадрат с k(n-1) степенями свободы, а второе слагаемое,
деленное на σ2, также имеет распределение хи-квадрат, но с (k-1)
степенями свободы, причем первое и второе слагаемые независимы как случайные
величины. Поэтому случайная величина имеет
распределение Фишера с (k-1) степенями свободы числителя и k(n-1)
степенями свободы знаменателя. Гипотеза Н0 принимается, если
F < F1-α, и отвергается в противном случае, где
F1-α – квантиль порядка 1-α распределения Фишера с указанными
числами степеней свободы. Такой выбор критической области определяется тем, что
при Н1 величина F безгранично увеличивается при росте
объема выборок n. Значения F1-α берут из
соответствующих таблиц.