5.4. Стандартные и стьюдентизированные остатки, влияние выбросов на точность уравнения регрессии
Очевидно, что любое резкое повышение курса доллара приводит к возникновению так называемых выбросов, т. е. необычно больших остатков (разницы между фактическим и прогнозным курсом доллара), отрицательно влияющих на точность последующих прогнозов. Их определение можно взять в соответствующей литературе: «Выбросом среди остатков называется остаток, который по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений»[13].
Следовательно, решая уравнение регрессии, надо всегда проверять величину полученных остатков, а также оценивать риск, связанный с влиянием выбросов на смещение коэффициентов в уравнении регрессии. Очевидно, что в случае выявления во временном ряде наблюдения, имеющего остаток, равный трем и более стандартным отклонениям, нужно всегда проводить тщательный анализ с точки зрения его влияния на точность составленного прогноза. Впрочем, во многих статистических программах критическими считаются и те случаи, когда величина остатка больше двух стандартных отклонений.
Теперь посмотрим, какие результаты дал бы анализ остатков по прогнозу на октябрь 1998 г., сделанному на основе данных по курсу доллара с июня 1992 г. по сентябрь 1998 г.
Алгоритм действий № 16 Как в Excel можно найти стандартные остатки
В Excel анализ остатков на наличие в них выбросов проводится следующим образом. Решая уравнение регрессии, нужно действовать согласно алгоритму № 3 «Как решить уравнение регрессии в Excel». После того как на экране появится диалоговое мини-окно РЕГРЕССИЯ, в параметре ОСТАТКИ нужно установить две опции: ОСТАТКИ и СТАНДАРТИЗИРОВАННЫЕ ОСТАТКИ (рис. 5.5).
Используя в Excel опции ОСТАТКИ и СТАНДАРТИЗИРОВАННЫЕ ОСТАТКИ, мы получили после решения уравнения регрессии следующие данные по остаткам, часть из которых (за 1997–1998 гг.) поместили в табл. 5.7. Нужно сразу заметить, что в Excel стандартные (в литературе чаще используется последнее определение, хотя иногда встречается и термин «стандартизированные») остатки находятся путем деления их фактических, а не абсолютных значений. Поэтому в нашей таблице есть наблюдения как с положительными (в том случае, когда прогноз оказался ниже фактического курса доллара), так и с отрицательными (когда прогноз оказался выше фактического курса доллара) стандартными остатками.
Анализируя по табл. 5.7 динамику стандартных остатков, легко заметить, что своего максимума они достигли в августе и сентябре 1998 г.
Чтобы обратить внимание читателей к этим двум наблюдениям, их выделили жирным шрифтом. При этом можно увидеть, что в то время как стандартные остатки в августе 1998 г. оказались равны 2,931979 и были меньше трех стандартных отклонений, то в сентябре 1998 г. их величина составила 4,922042, приблизившись тем самым к пяти стандартным отклонениям. Таким образом, с уверенностью можно констатировать, что сентябрьский остаток представляет собой выброс — это весьма осложняет получение (по применяемой статистической модели) точного прогноза на октябрь 1998 г. Впрочем, выбросом можно считать и остатки, полученные в августе 1998 г., если снизить уровень для выбросов до двух стандартных отклонений.
Помимо стандартных остатков для анализа выбросов используются также стьюдентизированные остатки, которые представляют собой частное от деления обычного остатка на оценку его стандартного отклонения. Хотя теоретически все случайные ошибки, полученные после решения уравнения регрессии, считаются независимыми и имеющими одну и ту же дисперсию, однако в действительности конкретные остатки в силу своего различенного положения во временном ряду отнюдь не независимы и, следовательно, не имеют одинаковых дисперсий[14]. Поэтому чтобы учесть эту разницу в дисперсии остатков, их необходимо стьюдентизировать, т. е. оценить с учетом их положения в выборке. Формулу по расчету стьюдентизированных остатков мы дадим далее, а сейчас приведем алгоритм действий, с помощью которого можно быстро получить стьюдентизированные остатки. Правда, в Excel такая возможность отсутствует, но в последних версиях EViews эту процедуру можно реализовать с помощью статистики влияния остатков (INFLUENCE STATISTICS). Чтобы уяснить, как это делается, надо прочитать алгоритм действий № 17.
Алгоритм действий № 17 Диагностика в EViews влияния стьюдентизированных остатков на уравнение регрессии для прогностической модели USDOLLAR =
а × USDOLLAR(-1) +
b × USDOLLAR(-2)
Шаг 1. Как получить стьюдентизированные остаткиПосле решения уравнения регрессии (на основе рыночных данных по курсу доллара за период с июня 1992 г. по сентябрь 1998 г.) в строке EQUATION выбираем опции VIEW/STABILITY DIAGNOSTICS/INFLUENCE STATISTICS. В результате на экране появляется диалоговое мини-окно INFLUENCE STATISTICS, которое нужно соответствующим образом заполнить, чтобы провести диагностику остатков (рис. 5.6). Чтобы получить как графический, так и табличный вариант по статистике влияния остатков в параметре OUTPUT TYPE (тип выходной статистики), следует установить опции GRAPH (график) и TABLE (таблица). Далее в параметре OUTPUT STATISTICS (выходная статистика) ставим галочку у опции RSTUDENT (стьюдентизированные остатки) и рядом пишем RS — название файла, который будет помещен в рабочий файл.
Шаг 2. Интерпретация влияния стьюдентизированных остатков на точность прогнозаВ результате шага 1 получены диаграмма (она приведена на рис. 5.7) и табл. 5.8. Интерпретация диаграммы довольно проста, поскольку на ней представлен график значений стьюдентизированных остатков, который с обеих сторон выделен пунктирной линией и обозначает область допустимых значений, равных ± 2. Когда стьюдентизированные остатки выходят за пределы этой пунктирной линии, в этом наблюдении их можно считать выбросами. Легко заметить, что особенно велик стьюдентизированный остаток, полученный в сентябре 1998 г.
В таблице 5.8 приведена часть полученных с помощью EViews значений стьюдентизированных остатков (за период с января 1997 г. по сентябрь 1998 г.). При этом стьюдентизированные остатки, которые считаются выбросами (их величина больше или меньше 2), при выводе итогов обозначаются EViews красным шрифтом (в таблице они подчеркнуты). При этом область допустимых значений определяется с помощью уже известной нам t-статистики. В частности, выбросами считаются остатки, которые получены не только в сентябре, но и в августе 1998 г. Если сравнить стандартные остатки из табл. 5.7 со стьюдентизированными остатками, то легко заметить, что значения последних — за счет выросшей дисперсии между наблюдениями — наиболее сильно отличаются от значений первых для августа и сентября 1998 г.