Э - Обенко Ольга Тихоновна (20388): Лекция-2-2 | Информационная система поддержки образовательного процесса ФГБОУ ВО Костромской ГСХА

Лекция-2-2

2. Линейная модель парной регрессии и корреляции

Рассмотрим простейшую модель парной регрессии – линейную регрессию.

Линейная регрессия сводится к нахождению уравнения вида

Ŷ_x=a+b*x или y=a+b*x+ɛ (1.1)

Уравнение вида Ŷ_x =a+b*x позволяет по заданным значениям фактора x находить теоретические значения результативного признака, подставляя в него фактические значения фактора x.

Построение линейной регрессии сводится к оценке ее параметров –a и b.

Представим, что есть два ряда данных:

x = х₁, х₂,…, х_n;

y = y₁, y₂,…, y_n;

Каждое из наблюдений характеризуется двумя параметрами x_j ,y_j. В парной линейной регрессии связь между переменными определяется следующим образом:

Y= Ŷ_x+ ɛ=a+b*x+ ɛ

Где Y – зависимая (объясняемая) переменная, реальная либо фактическая (как ее еще называют эмпирическая, т.е. наблюдавшаяся в действительности); Х— независимая (объясняющая) переменная; Ŷ_x — зависимая переменная (результат), рассчитанная с помощью уравнения регрессии, называемая также теоретической (в данном случае она вычисляется по линейному уравнению регрессии); а, b — константы, или параметры, уравнения линейной регрессии; ɛ — случайная компонента, или возмущение.

Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности в целом наблюдаемых данных. Так, если зависимость потребления электроэнергии у от объема выпускаемой продукции х можно представить в следующем виде: у = 1500 + 24,8х , то это означает, что при увеличении объема выпуска на 1 ед. потребление электроэнергии в среднем возрастает на 24,8 ед. Таким образом, в уравнении регрессии связь между результатом и фактором представляется в качестве функциональной, причем функция, определяющая вид уравнения регрессии, может быть не только линейной.

Каждую пару наблюдений x_i ,y_i можно представить в виде точки на плоскости ху. Такое графическое построение называется полем корреляции. В этом случае наилучшей считается функция, график которой проходит через наибольшее количество точек или как можно ближе к ним.

В каждом из наблюдений величину случайной компоненты можно определить как разность между фактическим значением результата и рассчитанным по уравнению регрессии:

ε_i= y_i- ŷ_i

Если на графике все точки (х_i, у_i) совпадают с линией регрессии, тогда между результативным признаком у и фактором х существует строгая функциональная связь и выполняется следующее равенство:

ε=0 для каждого i= 1, 2, …,n

В экономических процессах такое равенство практически не встречается, так как экономические данные обычно не связаны строгой функциональной связью. Но во всех случаях, когда применение МНК оправдано, поэтому в качестве меры отклонений используется сумма квадратов отклонений ε_i² (см. 1.3 — остаточная дисперсия D_ост.)

Случайная компонента ε по своей сути есть случайная величина, или, как ее еще называют, возмущение. Она характеризует воздействие не учтенных в модели факторов, каких-либо случайных влияний, неправильный выбор специфики модели и в некоторых случаях может быть связана с особенностями измерения. Как уже было сказано, данные, которые описывают экономический процесс, не могут иметь строгую функциональную связь, кроме того, при эконометрических исследованиях используется случайная выборка данных, что и обусловливает постоянное наличие случайной компоненты. Размер остаточной дисперсии D_ост. может также зависеть от выбранного вида уравнения регрессии. Соответственно чем она меньше, тем лучше будет подобрана функция.

Последнее изменение: понедельник, 13 апреля 2020, 18:51