Для принятия решения о том, какую гипотезу нужно отвергнуть, построим F-статистику. Для этого нам должны быть известны (помимо уже имеющихся параметров n – объем выборки и k – число регрессоров в модели) величины RSS и ESS. В явном виде в распечатке на рис. 2.2 дано значение ESS – сумма квадратов остатков, которая составляет ESS = 4966,3, а также из распечатки известен коэффициент детерминации (подробнее о коэффициенте детерминации и его интерпретации можно прочесть в § 7).
Если вспомнить, что ,1 а , то можно путем простых алгебраических преобразований найти необходимую нам величину RSS. При этом . Отсюда можно вычислить . Критическое значение F-статистики возьмем на уровне значимости 5 %: (чтобы получить это значение, в основном меню GRETL нужно выбрать Инструменты – Критические значения – Фишера и ввести необходимое число степеней свободы и правостороннюю вероятность либо посмотреть в статистических таблицах распределения Фишера для уровня значимости 5 %, например в [7]).
Рис. 3.1
Рис. 3.2
Уровень значимости, на котором принимается решение о том, какую гипотезу не отвергать, остается на усмотрение исследователя. Как правило, если нет представления, какой именно уровень значимости брать, предлагается выбирать 5 %. В случаях работы с маленьким по объему выборками (от 30 до 100 наблюдений) предлагается брать уровень значимости 10 %. Для больших выборок (более 1000 наблюдений) можно взять уровень значимости 1 %. В нашем случае объем выборки средний (526 наблюдений, эта информация дана в первой строке распечатки на рис. 2.2.), поэтому можно было принять .
Сравниваем расчетное значение F-статистики с критическим , то есть 78,2 > 2,6. Следовательно, можно сделать вывод, что гипотеза о незначимости регрессии в целом отвергается.
Тест Фишера можно провести также в полуавтоматическом режиме и в автоматическом режиме. Полуавтоматический режим состоит в том, что нам не нужно вручную вычислять значение расчетной F-статистики, оно дано в распечатке на рис. 2.2. В этом случае нужно лишь выяснить критическое значение F-статистики и сравнить расчетное значение с критическим.
В автоматическом режиме нужно также воспользоваться распечаткой GRETL и посмотреть на р-значение статистики Фишера на рис. 2.2 (в распечатке р-значение (F)). В р-значении содержится вероятность ошибки I рода. Таким образом, р-значение (F) для теста Фишера – это вероятность ошибки I рода при тестировании гипотезы . По существу это вероятность ошибиться, отвергнув гипотезу H0. Для принятия решения, можно ли отвергнуть гипотезу H0, нужно сравнить р-значение с заданным уровнем значимости a. Уровень значимости задает вероятность ошибки I рода, то есть, грубо говоря, какую долю ошибок мы готовы себе позволить, отвергнув гипотезу H0. Если р-значение меньше принятого уровня значимости, то маловероятно, что мы ошибемся, отвергая гипотезу H0 в ситуации, когда р-значение больше уровня значимости, вероятна ошибка в случае отклонения нулевой гипотезы, поэтому ее стоит принять. Отсюда можно сделать вывод, что р-значение показывает вероятность ошибиться, отвергнув гипотезу H0, при том, что она верна. Эта интерпретация р-значения справедлива для всех статистических тестов, и мы будем иметь ее в виду в дальнейшем. В данном случае р-значение (F) (р-значение (F) в распечатке представляет собой «3,41e-41» – это компьютерный способ записи числа , которое практически равно 0). Это говорит о том, что можно отвергнуть гипотезу H0 (вероятность ошибки близка к 0).
Стоит обратить внимание еще на один полезный факт. При расчете F-статистики вручную мы использовали формулу . Используя соотношение , можно переписать расчетную статистику через коэффициент детерминации, не используя квадраты остатков .
4. Тест Стьюдента (t-test)
После того как мы проверили незначимость регрессионного уравнения в целом, рассмотрим, как проверять незначимость коэффициентов при отдельных регрессорах. Для этой цели воспользуемся тестом Стьюдента [3].
Проверим незначимость коэффициента при переменной . Сформулируем гипотезы теста для указанной переменной [файл с данными wage1.gdt]. Они будут выглядеть следующим образом:
Значение оцененного коэффициента при этой переменной находится в столбце «Коэффициент» – . Для того чтобы вычислить расчетную t-статистикy, необходимо знать значение стандартной ошибки для коэффициента, оно содержится в столбце «Ст. ошибка». Для переменной стандартная ошибка . Отсюда можем вычислить . Для принятия решения о том, можно ли отвергнуть гипотезу H0, сравним значение с критическим значением статистики . Примем уровень значимости . Как уже было сказано, объем выборки составляет 526 наблюдений, то есть n = 526. Число регрессоров в модели составляет 4 (константа тоже регрессор), то есть, k = 4. Отсюда следует, что нужно искать критическое значение из двустороннего распределения Стьюдента на уровне значимости 5 % (одностороннее распределение 2,5 %) с 522 степенями свободы. Для поиска критического значения из распределения Стьюдента можно воспользоваться статистическими таблицами, например из [7]. Но можно воспользоваться возможностями GRETL. Для этого в основном меню выберем Инструменты – Критические значения.
Рис. 4.1
В открывшемся окне «Критические значения» выберем вкладку, соответствующую распределению Стьюдента, и введем нужные параметры распределения.
Рис. 4.2
Стоит обратить внимание на то, что в GRETL предполагается для распределения Стьюдента вводить не двустороннюю вероятность, а только правостороннюю вероятность, то есть в нашем случае это 2,5 %. После нажатия клавиши ОК получаем искомое критическое значение .
Рис. 4.3
После этого сравниваем расчетное и критическое значение статистик для переменной . В нашем случае (|11,68 | > 1,96), отсюда можно сделать вывод, что гипотеза H0 отвергается, то есть можно говорить о том, что регрессор значим.
Рассмотренный способ проверки гипотезы незначимости коэффициента при отдельном регрессоре позволяет соотнести теоретические знания о проверке незначимости с практикой. Однако ту же самую процедуру можно несколько упростить. Обратим внимание, что в столбце t-статистика для всех переменных уже указаны расчетные значения статистики. Так, например, для переменной указано полученное нами значение . Это несколько сокращает процедуру проверки, однако сравнение расчетного и критического значения t-статистики все же приходится проделывать самостоятельно.
Существует еще более простой и быстрый способ проверки незначимости коэффициента.
В рассматриваемом примере p-значение переменной составляет , то есть практически равно 0. В этом случае, p-значение переменной меньше заданного уровня значимости . Это значит, что можно отвергнуть гипотезу H0, то есть коэффициент при регрессоре значим.
Аналогичную проверку незначимости мы можем провести для коэффициентов остальных регрессоров. На 5 %-ном уровне значимости можно утверждать, что коэффициент при и константа – значимы, коэффициент при на 5 %-ном уровне не значим, однако он является значимым на 10 %-ном уровне значимости.
В программе GRETL предусмотрена визуализация значимости коэффициентов при отдельных регрессорах на разных уровнях значимости. Для этого справа от каждого регрессора расположены звездочки:
• Наличие одной звездочки говорит о том, что коэффициент значим только на 10 %-ном уровне.