Лекция-2-2
2. Линейная модель парной регрессии и корреляции
Рассмотрим простейшую модель парной регрессии – линейную регрессию.
Линейная регрессия сводится к нахождению уравнения вида
Ŷx=a+b*x или y=a+b*x+ɛ (1.1)
Уравнение вида Ŷx =a+b*x позволяет по заданным значениям фактора x находить теоретические значения результативного признака, подставляя в него фактические значения фактора x.
Построение линейной регрессии сводится к оценке ее параметров –a и b.
Представим, что есть два ряда данных:
x = х1, х2,…, хn;
y = y1, y2,…, yn;
Каждое из наблюдений характеризуется двумя параметрами xj ,yj. В парной линейной регрессии связь между переменными определяется следующим образом:
Y= Ŷx+ ɛ=a+b*x+ ɛ
Где Y – зависимая (объясняемая) переменная, реальная либо фактическая (как ее еще называют эмпирическая, т.е. наблюдавшаяся в действительности); Х— независимая (объясняющая) переменная; Ŷx — зависимая переменная (результат), рассчитанная с помощью уравнения регрессии, называемая также теоретической (в данном случае она вычисляется по линейному уравнению регрессии); а, b — константы, или параметры, уравнения линейной регрессии; ɛ — случайная компонента, или возмущение.
Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности в целом наблюдаемых данных. Так, если зависимость потребления электроэнергии у от объема выпускаемой продукции х можно представить в следующем виде: у = 1500 + 24,8х , то это означает, что при увеличении объема выпуска на 1 ед. потребление электроэнергии в среднем возрастает на 24,8 ед. Таким образом, в уравнении регрессии связь между результатом и фактором представляется в качестве функциональной, причем функция, определяющая вид уравнения регрессии, может быть не только линейной.
Каждую пару наблюдений xi ,yi можно представить в виде точки на плоскости ху. Такое графическое построение называется полем корреляции. В этом случае наилучшей считается функция, график которой проходит через наибольшее количество точек или как можно ближе к ним.
В каждом из наблюдений величину случайной компоненты можно определить как разность между фактическим значением результата и рассчитанным по уравнению регрессии:
εi = yi - ŷi
Если на графике все точки (хi, уi) совпадают с линией регрессии, тогда между результативным признаком у и фактором х существует строгая функциональная связь и выполняется следующее равенство:
ε=0 для каждого i= 1, 2, …,n
В экономических процессах такое равенство практически не встречается, так как экономические данные обычно не связаны строгой функциональной связью. Но во всех случаях, когда применение МНК оправдано, поэтому в качестве меры отклонений используется сумма квадратов отклонений εi2 (см. 1.3 — остаточная дисперсия Dост.)
Случайная компонента ε по своей сути есть случайная величина, или, как ее еще называют, возмущение. Она характеризует воздействие не учтенных в модели факторов, каких-либо случайных влияний, неправильный выбор специфики модели и в некоторых случаях может быть связана с особенностями измерения. Как уже было сказано, данные, которые описывают экономический процесс, не могут иметь строгую функциональную связь, кроме того, при эконометрических исследованиях используется случайная выборка данных, что и обусловливает постоянное наличие случайной компоненты. Размер остаточной дисперсии Dост. может также зависеть от выбранного вида уравнения регрессии. Соответственно чем она меньше, тем лучше будет подобрана функция.