Критерий Фишера
Перед тем как приступить к расчету
критерия Фишер; проведем анализ дисперсии.
Общую сумму квадратов отклонений у от можно разложить на
сумму квадратов отклонений, объясненную регрессией и сумму квадратов отклонений
не объясненную регрессией:
Где:
- общая сумма
квадратов отклонений индивидуальных значений результата от среднего по выборке;
- сумма
квадратов отклонений объясненная регрессией;
- сумма
квадратов отклонений не объясненная регрессией, или остаточная сумма
отклонений.
Общая сумма квадратов
отклонений результативного признака у от среднего значения определяется
влиянием различных причин. Условно всю совокупность последних можно разделить
на две группы: изучаемый фактор х и прочие, случайные
и не включаемые в модель факторы. Если фактор х
не оказывает влияния на результат, то линия регрессии на графике параллельна
оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена
воздействием прочих факторов и общая сумма квадратов отклонений совпадает с
остаточной:
Если же прочие факторы не
влияют на результат, то у связан с х
функционально и остаточная сумма квадратов равна нулю. В этом случае сумма
квадратов отклонений, объясненная регрессией, совпадает с общей суммой
квадратов:
Поскольку не все точки поля
корреляции лежат на линии регрессии, то всегда имеет место их разброс,
обусловленный как влиянием фактора х,
(регрессией у по х), так и действием прочих причин
(необъясненная вариация). Пригодность линии регрессии для прогноза зависит от
того, какая часть общей вариации признака у приходится на объясненную вариацию.
Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет
больше остаточной суммы квадратов, то уравнение регрессии статистически
значимо, и фактор х оказывает существенное
воздействие на результат у. Это равносильно тому, что
коэффициент детерминации R2 будет приближаться к
единице.
Любая сумма квадратов отклонений
связана с числом степеней свободы df, т.е. с числом
свободы независимого варьирования признака. Число степеней свободы связано с
числом единиц совокупности n и
числом определяемых по ней констант. Применительно к исследуемой проблеме число
степеней свободы должно показать, сколько независимых отклонений из n возможных
требуется для образования
данной суммы квадратов. Для общей суммы квадратов требуется (n-1)
независимых отклонений, ибо в совокупности из n единиц
после расчета среднего уровня свободно варьируют лишь (n—1)
число отклонений. Например, имеем ряд значений у: 1; 2; 3; 4; 5. Среднее из них
равно трем, тогда и отклонения от среднего составят: —2; — 1; 0; 1; 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое может
быть определено, если предыдущие четыре известны.
При расчете объясненной,
или факторной (так как значения зависят от значений
фактора х) суммы квадратов , используются теоретические значения результативного признака
, найденные по линии регрессии:
В линейной регрессии
. В этом можно убедиться, рассмотрев формулу линейного
коэффициента корреляции:
Если возведем в
квадрат все равенство, получим следующее:
Здесь R2=(rxy)2;
-общая дисперсия результата;
дисперсия результата, обусловленная
фактором х.
Следовательно, для
линейной регрессии выполняется равенство
Поскольку при определенном
объеме наблюдений по х и у факторная сумма
квадратов при линейной регрессии зависит только от одной постоянной —
коэффициента регрессии b,
то данная сумма квадратов имеет одну степень свободы. К этому же выводу можно
прийти, если рассмотреть составляющие расчетного значения признака . Величина определяется по
уравнению линейной регрессии: . Параметр а можно определить следующим
образом: Подставив выражение для параметра а в линейную модель,
получим
Отсюда следует, что при заданном
наборе переменных у и х расчетное значение является в линейной
регрессии функцией только одного параметра — коэффициента регрессии. Таким
образом, факторная сумма квадратов отклонений имеет число степеней свободы,
равное единице.
Существует равенство между числами степеней свободы
общей, факторной и остаточной сумм квадратов. Число степеней свободы
остаточной суммы квадратов при линейной регрессии составляет (n—2). Число степеней свободы
общей суммы квадратов определяется числом единиц совокупности, а поскольку
используется средняя вычисленная по данным выборки величина, то одна степень
свободы теряется, т.е. dfобщ= n-1.
Теперь имеются два равенства:
Разделив каждую сумму квадратов на соответствующее ей число
степеней свободы, получим дисперсии на одну степень свободы:
Так как эти
дисперсии рассчитаны на одну степень свободы, их можно сравнивать между собой.
Критерий Фишера позволяет проверить нулевую гипотезу Hо том, что факторная и
остаточная дисперсии на одну степень свободы равны между собой (Dфак.=Dост.). Критерий
Фишера рассчитывается по следующей формуле:
Если гипотеза H0
подтверждается, то факторная и остаточная дисперсии одинаковы, и уравнение
регрессии незначимо. Чтобы отвергнуть нулевую гипотезу и подтвердить значимость
уравнения регрессии в целом, факторная дисперсия на одну степень свободы должна
превышать остаточную дисперсию на одну степень свободы в несколько раз.
Существуют специальные таблицы критических значений Фишера при различных
уровнях надежности и степенях свободы. В них содержатся максимальные значения
отношений дисперсий, при которых нулевая гипотеза подтверждается. Значение
критерия Фишера для конкретного случая сравнивается с табличным, и на основе
этого гипотеза H0 принимается
или отвергается.
Если (Fфак.>Fтабл..),
тогда гипотеза H0 отклоняется
и делается вывод, что связь между у и х существенна
и уравнение регрессии статистически значимо. Если (Fфак.≤Fтабл.),
тогда гипотеза H0
принимается и делается вывод, что уравнение регрессии статистически незначимо,
так как существует риск (при заданном уровне надежности) сделать неправильный
вывод о наличии связи между х и у.
На основе данных
примера приведенного ранее рассчитаем критерий Фишера:
При α=0,05 Fтабл.=6,61,
а при α=0,01, Fтабл.=16,26
Так как фактическое значение критерия Фишера больше табличного (Fфак.>Fтабл..), при обоих уровнях значимости (собственно
95 и 99%), то можно с уверенностью отвергнуть нулевую гипотезу и сделать вывод
о значимости уравнения регрессии, т.е. связь между результативным и факторным
признаками существует и ее можно выразить через уравнение линейной парной
регрессии
Критерий Фишера
можно рассчитать и по формуле:
Проверим это на
рассматриваемом примере. В данном случае коэффициент детерминации r2 = 0,94, выразим его через
критерий Фишера:
Небольшие
расхождения результатов (т.е. 77,78 и 78,33) связаны с округлением.