Свойство состоятельности оценки
коэффициента β0 нормальной линейной модели парной регрессии, полученной методом наименьших квадратов, доказывается аналогично.
Оценка стандартной ошибки МНК-оценки
определяется по формуле:
Для модели множественной регрессии доказательство свойства несмещённости оценок параметров βi, полученных методом наименьших квадратов, целесообразно провести в матричной форме:
Следовательно, оценки
полученные методом наименьших квадратов, являются несмещёнными оценками коэффициентов βiнормальной линейной модели множественной регрессии.
Эффективность МНК-оценок доказывается с помощью теоремы Гаусса-Маркова.
17. Эффективность МНК-оценок МНК
Свойство эффективности оценок неизвестных параметров модели регрессии, полученных методом наименьших квадратов, доказывается с помощью теоремы Гаусса-Маркова.
Сделаем следующие предположения о модели парной регрессии:
1) факторная переменная xi– неслучайная или детерминированная величина, которая не зависит от распределения случайной ошибки модели регрессии βi;
2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:
3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:;
4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):
Это условие выполняется в том случае, если исходные данные не являются временными рядами;
5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: εi~N(0, G2).
Если выдвинутые предположения справедливы, то оценки неизвестных параметров модели парной регрессии, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок, т. е. МНК-оценки можно считать эффективными оценками неизвестных параметров β0 и β1.
Если выдвинутые предположения справедливы для модели множественной регрессии, то оценки неизвестных параметров данной модели регрессии, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок, т. е. МНК-оценки можно считать эффективными оценками неизвестных параметров β0…βn.
Для обозначения дисперсий МНК-оценок неизвестных параметров модели регрессии используется матрица ковариаций.
Матрицей ковариаций МНК-оценок параметров линейной модели парной регрессии называется выражение вида:
где
– дисперсия МНК-оценки параметра модели регрессии β0;
– дисперсия МНК-оценки параметра модели регрессии β1.
Матрицей ковариаций МНК-оценок параметров линейной модели множественной регрессии называется выражение вида:
где G2(ε) – это дисперсия случайной ошибки модели регрессии ε.
Для линейной модели парной регрессии дисперсии оценок неизвестных параметров определяются по формулам:
1) дисперсия МНК-оценки коэффициента модели регрессии β0:
2) дисперсия МНК-оценки коэффициента модели регрессии β1:
где G2(ε) – дисперсия случайной ошибки уравнения регрессии β;
G2(x) – дисперсия независимой переменой модели регрессии х;
n – объём выборочной совокупности.
В связи с тем, что на практике значение дисперсии случайной ошибки модели регрессии G2(ε) неизвестно, для вычисления матрицы ковариаций МНК-оценок применяют оценку дисперсии случайной ошибки модели регрессии S2(ε).
Для линейной модели парной регрессии оценка дисперсии случайной ошибки определяется по формуле:
где
– это остатки регрессионной модели, которые рассчитываются как
Тогда оценка дисперсии МНК-оценки коэффициента β0 линейной модели парной регрессии будет определяться по формуле:
Оценка дисперсии МНК-оценки коэффициента β1линейной модели парной регрессии будет определяться по формуле:
Для модели множественной регрессии общую формулу расчёта матрицы ковариаций МНК-оценок коэффициентов на основе оценки дисперсии случайной ошибки модели регрессии можно записать следующим образом:
18. Характеристика качества модели регрессии
Качеством модели регрессии называется адекватность построенной модели исходным (наблюдаемым) данным.
Для оценки качества модели регрессии используются специальные показатели.
Качество линейной модели парной регрессии характеризуется с помощью следующих показателей:
1) парной линейный коэффициент корреляции, который рассчитывается по формуле:
где G(x) – среднеквадратическое отклонение независимой переменной;
G(y) – среднеквадратическое отклонение зависимой переменной.
Также парный линейный коэффициент корреляции можно рассчитать через МНК-оценку коэффициента модели регрессии
по формуле:
Парный линейный коэффициент корреляции характеризует степень тесноты связи между исследуемыми переменными. Он рассчитывается только для количественных переменных. Чем ближе модуль значения коэффициента корреляции к единице, тем более тесной является связь между исследуемыми переменными. Данный коэффициент изменяется в пределах [-1; +1]. Если значение коэффициента корреляции находится в пределах от нуля до единицы, то связь между переменными прямая, т. е. с увеличением независимой переменной увеличивается и зависимая переменная, и наборот. Если коэффициент корреляции находится в пределах от минус еиницы до нуля, то связь между переменными обратная, т. е. с увеличением независимой переменной уменьшается зависимая переменная, и наоборот. Если коэффициент корреляции равен нулю, то связь между переменными отсутствует. Если коэффициент корреляции равен единице или минус единице, то связь между переменными существует функциональная связь, т. е. изменения независимой и зависимой переменных полностью соответствуют друг другу.
2) коэффициент детерминации рассчитывается как вадрат парного линейного коэффициента корреляции и обозначается как ryx2. Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимой переменной, в общем объёме вариации.
Качество линейной модели множественной регрессии характеризуется с помощью показателей, построенных на основе теоремы о разложении дисперсий.
Теорема. Общая дисперсия зависимой переменной может быть разложена на объяснённую и необъяснённую построенной моделью регрессии дисперсии:
G2(y)=σ2(y)+δ2(y),
где G2(y) – это общая дисперсия зависимой переменной;
σ2(y) – это объяснённая с помощью построенной модели регрессии дисперсия переменной у, которая рассчитывается по формуле:
δ2(y) – необъяснённая или остаточная дисперсия переменной у, которая рассчитывается по формуле:
С использованием теоремы о разложении дисперсий рассчитываются следующие показатели качества линейной модели множественной регрессии:
1) множественный коэффициент корреляции между зависимой переменной у и несколькими независимыми переменными хi:
Данный коэффициент характеризует степень тесноты связи между зависимой и независимыми переменными. Свойства множественного коэффициента корреляции аналогичны свойствам линейнойго парного коэффициента корреляции.
2) теоретический коэффициент детерминации рассчитывается как квадрат множественного коэффициента корреляции:
Данный коэффициент характеризует в процентном отношении вариацию зависимой переменной, объяснённой вариацией независимых переменных;
3) показатель
характеризует в процентном отношении ту долю вариации зависимой переменной, которая не учитывается а построенной модели регрессии;