Если уравнение модели содержит две экономические переменные – эндогенную yiи предопределенную xi, то модель имеет вид:
Данная модель называется моделью линейной парной регрессии и содержит три неизвестных параметра:
β0 , β1 , σ. (3)
Предположим, что имеется выборка: (х1, y1), (х2, y2),… (хn , yn) (4)
Тогда в рамках исследуемой модели данные величины связаны следующим образом:
y1 = a0 + a1 * x1 + u1,
y2 = a0 + a1 * x2 + u2, (5)
…
yn= a0 + a1 * x n + u n.
Данная система называется системой уравнений наблюдения объекта в рамках исследуемой линейной модели или схемой Гаусса-Маркова.
Компактная запись схемы Гаусса-Маркова:
где
– вектор-столбец известных значений эндогенной переменной yiмодели регрессии;
– вектор-столбец неизвестных значений случайных возмущений εi;
– матрица известных значений предопределенной переменной xi модели;
β = (β0 β1 )Т (10) – вектор неизвестных коэффициентов модели регрессии.
Обозначим оценку вектора неизвестных коэффициентов модели регрессии как
Данная оценка вычисляется на основании выборочных данных (7) и (9) с помощью некоторой процедуры:
где P (X, ỹ) – символ процедуры.
Процедура (12) называется линейной относительно вектора (7) значений эндогенной переменной yi, если выполняется условие:
где
(14) – матрица коэффициентов, зависящих только от выборочных значений (9) предопределенной переменной хi.
Теорема Гаусса-Маркова. Пусть матрица Х коэффициентов уравнений наблюдений (6) имеет полный ранг, а случайные возмущения (8) удовлетворяют четырем условиям:
E(ε1) = E(ε2) = … = E(εn) = 0, (15)
Var(ε1) = Var(ε2) = … = Var(εn) = σ2(16)
Cov(εi, εj) = 0 при i≠j(17)
Cov(xi,εj) = 0 при всех значениях i и j (18)
В этом случае справедливы следующие утверждения:
а) наилучшая линейная процедура (13), приводящая к несмещенной и эффективной оценке (11), имеет вид:
б) линейная несмещенная эффективная оценка (19) обладает свойством наименьших квадратов:
в) ковариационная матрица оценки (19) вычисляется по правилу:
г) несмещенная оценка параметра σ2 модели (2) находится по формуле:
Следствие теоремы Гаусса-Маркова. Оценка
доставляемая процедурой (19) метода наименьших квадратов, может быть вычислена в процессе решения системы двух линейных алгебраических уравнений:
Данная система называется системой нормальных уравнений. Ее коэффициенты и свободные члены определяются по правилам:
[x] = x1 + x2 +…+ xn,
[y] = y1 + y2 +…+ yn, (24)
x2] = x12 + x22 +…+ xn2,
[xy] = x1*y1 + x2*y2 + … + xn*yn.
Явный вид решения системы (23):
13. Система нормальных уравнений и явный вид ее решения при оценивании методом наименьших квадратов линейной модели парной регрессии
Предположим, что в ходе регрессионного анализа была установлена линейная взаимосвязь между исследуемыми переменными х и у, которая описывается моделью регрессии вида:
В результате оценивания данной эконометрической модели определяются оценки неизвестных коэффициентов. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).
Метод наименьших квадратов позволяет получить такие оценки параметров β0 и β1, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных (теоретических) ỹ минимальна:
В процессе минимизации функции (1) неизвестными являются только значения коэффициентов β0 и β1, потому что значения результативной и факторной переменных известны из наблюдений. Для определения минимума функции двух переменных вычисляются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений для функции (2):
.
Если разделить обе части каждого уравнения системы на (-2), раскрыть скобки и привести подобные члены, то получим систему нормальных уравнений для функции регрессии вида yi=β0+β1xi:
Если решить данную систему нормальных уравнений, то мы получим искомые оценки неизвестных коэффициентов модели регрессии β0 и β1:
где
– среднее значение зависимой переменной;
– среднее значение независимой переменной;
– среднее арифметическое значение произведения зависимой и независимой переменных;
– дисперсия независимой переменной;
Gcov (x, y) – ковариация между зависимой и независимой переменными.
Таким образом, явный вид решения системы нормальных уравнений может быть записан следующим образом:
14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии
Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии осуществим иной подход к решению данной проблемы.
Линейная модель парной регрессии может быть записана в виде:
где у – значения зависимой переменной;
х – значения независимой переменной;
– среднее значение зависимой переменной, которое определяется на основании выборочных данных вычисленное по формуле средней арифметической:
уi– значения зависимой переменной,
n – объём выборки;
– среднее значение независимой переменной, которое определяется на основании выборочных данных вычисленное по формуле средней арифметической:
Параметр βyx называется выборочным коэффициентом регрессии переменной у по переменной х. Данный параметр показывает, на сколько в среднем изменится зависимая переменная у при изменении независимой переменной х на единицу своего измерения.
Выборочный коэффициент регрессии переменной у по переменной х рассчитывается по формуле:
где ryx – это выборочный парный коэффициент корреляции между переменными у и х, который рассчитывается по формуле:
– среднее арифметическое значение произведения зависимой и независимой переменных:
Sy – показатель выборочного среднеквадратического отклонения зависимой переменной у. Этот показатель характеризует, на сколько единиц в среднем отклоняются значения зависимой переменной у от её среднего значения. Он рассчитывается по формуле:
– среднее значение из квадратов значений зависимой переменной у:
– квадрат средних значений зависимой переменной у:
Sx – показатель выборочного среднеквадратического отклонения независимой переменной х. Этот показатель характеризует, на сколько единиц в среднем отклоняются значения независимой переменной х от её среднего значения. Они рассчитывается по формуле:
– среднее значение из квадратов значений независимой переменной х:
– квадрат средних значений независимой переменной х:
При использовании рассмотренного подхода оценивания неизвестных параметров линейной модели парной регрессии, следует учитывать что ryx=rxy, однако βyx≠βxy.
15. Оценка дисперсии случайной ошибки модели регрессии
При проведении регрессионного анализа основная трудность заключается в том, что генеральная дисперсия случайной ошибки является неизвестной величиной, что вызывает необходимость в расчёте её несмещённой выборочной оценки.
Несмещённой оценкой дисперсии (или исправленной дисперсией) случайной ошибки линейной модели парной регрессии называется величина, рассчитываемая по формуле:
где n – это объём выборочной совокупности;
еi– остатки регрессионной модели:
Для линейной модели множественной регрессии несмещённая оценка дисперсии случайной ошибки рассчитывается по формуле: