Критерий Фишера

 

Перед тем как приступить к расчету критерия Фишер; проведем анализ дисперсии. Общую сумму квадратов отклонений у от  можно разложить на сумму квадратов отклонений, объясненную регрессией и сумму квадратов отклонений не объясненную регрессией:

Где:

- общая сумма квадратов отклонений индивидуальных значений результата от среднего по выборке;

- сумма квадратов отклонений объясненная регрессией;

- сумма квадратов отклонений не объясненная регрессией, или остаточная сумма отклонений.

Общая сумма квадратов отклонений результативного признака у от среднего значения определяется влиянием различных причин. Условно всю совокупность последних можно разделить на две группы: изучаемый фактор х и прочие, случайные и не включаемые в модель факторы. Если фактор х не оказывает влияния на результат, то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной:

Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов:

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, обусловленный как влиянием фактора х, (регрессией у по х), так и действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо, и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации R2 будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы df, т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных

требуется для образования данной суммы квадратов. Для общей суммы квадратов требуется (n-1) независимых отклонений, ибо в совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n—1) число отклонений. Например, имеем ряд значений у: 1; 2; 3; 4; 5. Среднее из них равно трем, тогда и отклонения от среднего составят: —2; — 1; 0; 1; 2. Так как , то свободно варьируют лишь четыре отклонения, а пятое может быть оп­ределено, если предыдущие четыре известны.

При расчете объясненной, или факторной (так как значения  зависят от значений фактора х) суммы квадратов , используются теоретические значения результативного признака , найденные по линии регрессии:

В линейной регрессии

 . В этом можно убедиться, рассмотрев формулу линейного коэффициента корреляции:

Если возведем в квадрат все равенство, получим следующее:

Здесь R2=(rxy)2;

 -общая дисперсия результата;

    дисперсия результата, обусловленная фактором х.

Следовательно, для линейной регрессии выполняется равенство

Поскольку при определенном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной постоянной — коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу можно прийти, если рассмотреть составляющие расчетного значения признака . Величина  определяется по уравнению линейной регрессии: . Параметр а можно определить следующим образом: Подставив выражение для параметра а в линейную модель, получим

Отсюда следует, что при заданном наборе переменных у и х расчетное значение  является в линейной регрессии функцией только одного параметра — коэффициента регрессии. Таким образом, факторная сумма квадратов отклонений имеет число степеней свободы, равное единице.

Существует равенство между числами степеней свободы общей, факторной и остаточной сумм квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n—2). Число степеней свободы общей суммы квадратов определяется числом единиц совокупности, а поскольку используется средняя вычисленная по дан­ным выборки величина, то одна степень свободы теряется, т.е. dfобщ= n-1. Теперь имеются два равенства:

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим дисперсии на одну степень свободы:

Так как эти дисперсии рассчитаны на одну степень свободы, их можно сравнивать между собой. Критерий Фишера позволяет проверить нулевую гипотезу Hо том, что факторная и остаточная дисперсии на одну степень свободы равны между собой (Dфак.=Dост.). Критерий Фишера рассчитывается по следующей формуле:

Если гипотеза H0 подтверждается, то факторная и остаточная дисперсии одинаковы, и уравнение регрессии незначимо. Чтобы отвергнуть нулевую гипотезу и подтвердить значимость уравнения регрессии в целом, факторная дисперсия на одну степень свободы должна превышать остаточную дисперсию на одну степень свободы в несколько раз. Существуют специальные таблицы критических значений Фишера при различных уровнях надежности и степенях свободы. В них содержатся максимальные значения отношений дисперсий, при которых нулевая гипотеза подтверждается. Значение критерия Фишера для конкретного случая сравнивается с табличным, и на основе этого гипотеза H0 принимается или отвергается.

Если (Fфак.>Fтабл..), тогда гипотеза H0 отклоняется и делается вывод, что связь между у и х существенна и уравнение регрессии статистически значимо. Если (Fфак.Fтабл.), тогда гипотеза H0 принимается и делается вывод, что уравнение регрессии статистически незначимо, так как существует риск (при заданном уровне надежности) сделать неправильный вывод о наличии связи между х и у.

На основе данных примера приведенного ранее рассчитаем критерий Фишера:

При      α=0,05   Fтабл.=6,61,  

а при     α=0,01, Fтабл.=16,26

Так как фактическое значение критерия Фишера больше табличного (Fфак.>Fтабл..), при обоих уровнях значимости (собственно 95 и 99%), то можно с уверенностью отвергнуть нулевую гипотезу и сделать вывод о значимости уравнения регрессии, т.е. связь между результативным и факторным признаками существует и ее можно выразить через уравнение линейной парной регрессии

 

Критерий Фишера можно рассчитать и по формуле:

Проверим это на рассматриваемом примере. В данном случае коэффициент детерминации r2 = 0,94, выразим его через критерий Фишера:

Небольшие расхождения результатов (т.е. 77,78 и 78,33) связаны с округлением.