<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Архивы Общая информация - Open Forecasting</title>
	<atom:link href="https://openforecast.org/ru/category/r/smooth-rus/general-rus/feed/" rel="self" type="application/rss+xml" />
	<link>https://openforecast.org/ru/category/r/smooth-rus/general-rus/</link>
	<description>О том как смотреть в будущее</description>
	<lastBuildDate>Fri, 14 Feb 2020 12:27:55 +0000</lastBuildDate>
	<language>ru-RU</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2015/08/cropped-usd-05-32x32.png&amp;nocache=1</url>
	<title>Архивы Общая информация - Open Forecasting</title>
	<link>https://openforecast.org/ru/category/r/smooth-rus/general-rus/</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Пакет «smooth» для R. Общие параметры. Часть 4. Экзогенные переменные. Продвинутый уровень</title>
		<link>https://openforecast.org/ru/2018/02/10/xreg-advanced/</link>
					<comments>https://openforecast.org/ru/2018/02/10/xreg-advanced/#respond</comments>
		
		<dc:creator><![CDATA[Ivan Svetunkov]]></dc:creator>
		<pubDate>Sat, 10 Feb 2018 15:51:33 +0000</pubDate>
				<category><![CDATA[R]]></category>
		<category><![CDATA[Общая информация]]></category>
		<category><![CDATA[Пакет smooth для R]]></category>
		<category><![CDATA[Экстраполяционные методы]]></category>
		<category><![CDATA[smooth]]></category>
		<guid isPermaLink="false">https://openforecast.org/?p=1663</guid>

					<description><![CDATA[<p>В прошлый раз мы рассмотрели основы по работе с экзогенными переменными в функциях пакета smooth. Сегодня мы поговорим о более продвинутых вещах. Но прежде чем перейти к ним, нам нужно поговорить о вспомогательных функциях, которые реализованы в пакете greybox и используются в smooth. Первая из них называется xregExpander() и позволяет генерировать лаговые переменные на основе [&#8230;]</p>
<p>Сообщение <a href="https://openforecast.org/ru/2018/02/10/xreg-advanced/">Пакет «smooth» для R. Общие параметры. Часть 4. Экзогенные переменные. Продвинутый уровень</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>В прошлый раз мы рассмотрели основы по работе с экзогенными переменными в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span>. Сегодня мы поговорим о более продвинутых вещах. Но прежде чем перейти к ним, нам нужно поговорить о вспомогательных функциях, которые реализованы в пакете <span class="lang:r decode:true crayon-inline">greybox</span> и используются в <span class="lang:r decode:true crayon-inline">smooth</span>. Первая из них называется <span class="lang:r decode:true crayon-inline">xregExpander()</span> и позволяет генерировать лаговые переменные на основе предоставленного вектора или матрицы. В качестве примера возьмём ряд <span class="lang:r decode:true crayon-inline">BJsales.lead</span>, который мы обсуждали в <a href="/2018/01/15/xreg-basics/">прошлом посте</a>. Предположим, что влияние переменной на продажи носит более сложный характер, чем мы предполагали до того: <span class="lang:r decode:true crayon-inline">BJsales.lead</span> влияет на <span class="lang:r decode:true crayon-inline">BJsales</span> с лагом и 0, 5 и 10 дней. Это означает, что нам нужно учесть этот лаговый эффект, и это как раз то, что позволяет нам делать функция <span class="lang:r decode:true crayon-inline">xregExpander()</span>:</p>
<pre class="decode">newXreg <- xregExpander(BJsales.lead, lags=c(-5,-10))</pre>
<p>Переменная <span class="lang:r decode:true crayon-inline">newXreg</span> представляет собой матрицу, которая содержит оригинальную переменную, а так же её же с лагами 5 и 10. Заметим, что, если бы мы просто сдвинули переменную во времени, то у нас образовались бы пропущенные значения (NAs). Поэтому <span class="lang:r decode:true crayon-inline">xregExpander()</span> заполняет пропущенные значения их прогнозами либо с помощью функции <span class="lang:r decode:true crayon-inline">es()</span>, либо с помощью <span class="lang:r decode:true crayon-inline">iss()</span> (в зависимости от типа переменной). Это так же означает, что, если вы пытаетесь сделать лаговой бинарную переменную, то пропущенные значения будут заменены средним значением (например, 0.7812). Так что будьте внимательны с тем, что получаете на выходе. Возможно, в вашем случае будет правильней заменить эти значения на нули или единицы...</p>
<p>Иногда так же бывают нужны и ведущие переменные (с положительными лагами) - переменные, значение которых в будущем определяет значение некоторой переменной сегодня. Подобные эффекты могут наблюдаться, например, в моделировании эффектов от акций в супермаркетах, когда покупатели ожидают снижения цены на товар через какое-то время. Это всё регулирует по средствам добавления положительных значений в <span class="lang:r decode:true crayon-inline">xregExpander()</span>:</p>
<pre class="decode">newXreg <- xregExpander(BJsales.lead, lags=c(7,-5,-10))</pre>
<p>Значения в этом случае так же сдвигаются, но уже в другую сторону, а недостающие наблюдения заменяются их прогнозными значениями.</p>
<p>После того, как мы трансформировали переменные, мы можем из использовать в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span> для прогнозирования. Всё, что мы обсуждали в <a href="/2018/01/15/xreg-basics/">прошлом посте</a>, применимо и здесь:</p>
<pre class="decode">es(BJsales, "XXN", xreg=newXreg, h=10, holdout=TRUE)</pre>
<p>Но что нам делать, если в нашем распоряжении несколько переменных, и мы не уверены в том, какие лаги включать? У этой задачи есть много решений, одно из них реализовано в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span>. Стоит заметить, что это решение не обязательно гарантирует точные прогнозы, но это хоть какое-то решение. Основано оно на работе функции <span class="lang:r decode:true crayon-inline">stepwise()</span> из пакета <span class="lang:r decode:true crayon-inline">greybox</span>, которая осуществляет пошаговый отбор на основе информационных критериев и частной корреляции. Для работы данной функции, нужно, чтобы выходная переменная была в первом столбце матрицы. Идея функции проста, и весь алгоритм сводится к следующему:</p>
<ol>
<li>Строится базовая модель первой переменной от константы (что соответствует простой средней по ряду). Рассчитывается информационный критерий;</li>
<li>Рассчитываются корреляции остатков модели с имеющимися экзогенными переменными;</li>
<li>Строится регрессионная модель выходной переменной от всех уже включённых переменных, плюс той, которая сильнее всего коррелирует с остатками. Для этого используется функция <span class="lang:r decode:true crayon-inline">lm()</span>;</li>
<li>Рассчитывается информационный критерий новой модели, и сравнивается с предыдущим значением. Если новое значение меньше, то происходит переход к шагу (2). Иначе процесс прекращается и выбирается предыдущая модель.</li>
</ol>
<p>Таким образом мы не проводим поиск переменных "вслепую", но осуществляем своеобразный поиск хорошей модели по некоторой траектории: если какая-то значимая часть переменной ещё осталась необъяснённой, то корреляция по остаткам покажет её, а значит и соответствующая переменная будет включена в модель. Использование корреляций позволяет включать только "осмысленные" переменные, а использование информационных критериев позволяет обойти проблему неопределённости статистических гипотез. В целом, функция позволяет найти модель с одним из наименьших информационных критериев в сжатые временные сроки. Это, конечно же, не гарантирует наиболее точные прогнозы, но для этого эволюция как раз и наградила людей мозгом: статистика - это хорошо, но не стоит забывать о здравом смысле!</p>
<p>Взглянем на работу функции на примере с 10 лаговыми и 10 ведущими переменными:</p>
<pre class="decode">newXreg <- as.data.frame(xregExpander(BJsales.lead,lags=c(-10:10)))
newXreg <- cbind(as.matrix(BJsales),newXreg)
colnames(newXreg)[1] <- "y"</pre>
<p>Код выше гарантирует, что в нашем распоряжении будет data frame с красивыми именами, а не какой-нибудь трэш. Замети ещё раз, что для функции <span class="lang:r decode:true crayon-inline">stepwise()</span> важно, чтобы выходная переменная была в первом столбце матрицы.</p>
<pre class="decode">ourModel <- stepwise(newXreg)</pre>
<p>И вот, что у нас получилось в итоге:</p>
<pre>Call:
lm(formula = y ~ xLag4 + xLag9 + xLag3 + xLag10 + xLag5 + xLag6 + 
    xLead9 + xLag7 + xLag8, data = newXreg)

Coefficients:
(Intercept)        xLag4        xLag9        xLag3       xLag10        xLag5        xLag6  
    17.6448       3.3712       1.3724       4.6781       1.5412       2.3213       1.7075  
     xLead9        xLag7        xLag8  
     0.3767       1.4025       1.3370</pre>
<p>Переменные в функции перечислены по мере включения их в модель. Функция работает достаточно быстро, так как ей не приходится проходить через все возможные комбинации моделей.</p>
<p>Вы спросите: ну и что? А вот что! Эти две функции можно использовать вместе с функциями пакета <span class="lang:r decode:true crayon-inline">smooth</span>: в <span class="lang:r decode:true crayon-inline">es()</span>, <span class="lang:r decode:true crayon-inline">ssarima()</span>, <span class="lang:r decode:true crayon-inline">ces()</span> и <span class="lang:r decode:true crayon-inline">ges()</span> реализован механизм выбора переменных на основе <span class="lang:r decode:true crayon-inline">stepwise()</span>, регулируемый с помощью параметра <span class="lang:r decode:true crayon-inline">xregDo</span>, которые по умолчанию задан как "use" (использовать все переменные), но может быть так же принимать значение "select" (выбрать наилучшую модель). В этом случае функция <span class="lang:r decode:true crayon-inline">stepwise()</span> будет применена к остаткам модели, и, когда подходящие переменные будут найдены, итоговая модель будет переоценена для избавления от потенциального смещения в оценках параметров.</p>
<p>Посмотрим, как это работает на том же примере. Для начала просто построим модель со всеми переменными (я уберу от греха подальше первую переменную из уже имеющегося data frame, которая является выходной переменной):</p>
<pre class="decode">newXreg <- newXreg[,-1]
ourModelUse <- es(BJsales, "XXN", xreg=newXreg, h=10, holdout=TRUE, silent=FALSE, xregDo="use", intervals="sp")</pre>
<pre>Time elapsed: 1.13 seconds
Model estimated: ETSX(ANN)
Persistence vector g:
alpha 
0.922 
Initial values were optimised.
24 parameters were estimated in the process
Residuals standard deviation: 0.287
Xreg coefficients were estimated in a normal style
Cost function type: MSE; Cost function value: 0.068

Information criteria:
      AIC      AICc       BIC 
 69.23731  79.67209 139.83673 
95% semiparametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: 0%; Bias: 55.7%; MAPE: 0.1%; SMAPE: 0.1%
MASE: 0.166; sMAE: 0.1%; RelMAE: 0.055; sMSE: 0%</pre>
<div id="attachment_1621" style="width: 310px" class="wp-caption alignnone"><a href="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse.png&amp;nocache=1"><img fetchpriority="high" decoding="async" aria-describedby="caption-attachment-1621" src="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse-300x175.png&amp;nocache=1" alt="" width="300" height="175" class="size-medium wp-image-1621" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXUse.png&amp;nocache=1 1200w" sizes="(max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1621" class="wp-caption-text">Ряд BJsales и модель ETSX со всеми переменными</p></div>
<p>Как видим, прогноз стало более точным, чем он был в <a href="/2018/01/15/xreg-basics/">прошлой статье</a>, в которой мы не использовали лаги. Это означает, что в ряде данных действительно наблюдается влияние лаговых эффектов на продажи. Впрочем, из-за того, что мы включили всё подряд, полученная модель, возможно, стала слишком сильно аппроксимировать ряд, что может плохо сказаться на точности прогнозов. Хорошо бы выкинуть все лишние переменные...</p>
<pre class="decode">ourModelSelect <- es(BJsales, "XXN", xreg=newXreg, h=10, holdout=TRUE, silent=FALSE, xregDo="select", intervals="sp")</pre>
<pre>Time elapsed: 0.98 seconds
Model estimated: ETSX(ANN)
Persistence vector g:
alpha 
    1 
Initial values were optimised.
11 parameters were estimated in the process
Residuals standard deviation: 0.283
Xreg coefficients were estimated in a normal style
Cost function type: MSE; Cost function value: 0.074

Information criteria:
     AIC     AICc      BIC 
54.55463 56.61713 86.91270 
95% semiparametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: 0%; Bias: 61.4%; MAPE: 0.1%; SMAPE: 0.1%
MASE: 0.159; sMAE: 0.1%; RelMAE: 0.052; sMSE: 0%</pre>
<div id="attachment_1622" style="width: 310px" class="wp-caption alignnone"><a href="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect.png&amp;nocache=1"><img decoding="async" aria-describedby="caption-attachment-1622" src="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect-300x175.png&amp;nocache=1" alt="" width="300" height="175" class="size-medium wp-image-1622" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSelect.png&amp;nocache=1 1200w" sizes="(max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1622" class="wp-caption-text">Ряд BJsales и модель ETSX с выбранными переменными</p></div>
<p>Несмотря на то, что по графику тяжело сказать, улучшился ли прогноз или нет, по ошибкам улучшение таки заметно: MASE уменьшилась с 0.166 до 0.159. AICc также уменьшился с 79.67209 до 56.61713. Это из-за того, что вторая модель включает только 8 переменных (вместо 21):</p>
<pre class="decode">ncol(ourModelUse$xreg)
ncol(ourModelSelect$xreg)</pre>
<p>Выбор переменных работает даже в случае с комбинированием прогнозов. Так экзогенные переменные выбираются для каждой модели отдельно, после чего производятся прогнозы, которые затем и комбинируются на основе весов IC. Пример:</p>
<pre class="decode">ourModelCombine <- es(BJsales, c("ANN","AAN","AAdN","CCN"), xreg=newXreg, h=10, holdout=TRUE, silent=FALSE, xregDo="s", intervals="sp")</pre>
<pre>Time elapsed: 1.46 seconds
Model estimated: ETSX(CCN)
Initial values were optimised.
Residuals standard deviation: 0.272
Xreg coefficients were estimated in a normal style
Cost function type: MSE

Information criteria:
(combined values)
     AIC     AICc      BIC 
54.55463 56.61713 86.91270 
95% semiparametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: 0%; Bias: 61.4%; MAPE: 0.1%; SMAPE: 0.1%
MASE: 0.159; sMAE: 0.1%; RelMAE: 0.052; sMSE: 0%</pre>
<p>Учитывая то, что модель ETSX(A,N,N) оказалась значительно лучше других моделей с точки зрения AICc, вес этой модели оказался наибольшим. Поэтому прогнозы ourModelSelect и ourModelCombine фактически идентичны. Начиная с версии v2.3.2, функция <span class="lang:r decode:true crayon-inline">es()</span> возвращает матрицу с информационными критериями для моделей, которые были оценены в процессе, так что мы можем посмотреть на AICc разных моделей:</p>
<pre class="decode">ourModelCombine$ICs</pre>
<pre>               AIC      AICc      BIC
ANN       54.55463  56.61713  86.9127
AAN      120.85273 122.91523 153.2108
AAdN     107.76905 110.22575 143.0688
Combined  54.55463  56.61713  86.9127</pre>
<p>Как видим, информационные критерии модели ETS(A,N,N) действительно оказались значительно ниже критериев других моделей, что привело к её превалированию в финальной комбинации.</p>
<p>Обратим внимание, что комбинация прогнозов - это не то же самое, что и комбинации моделей. Эта функция пока не доступна в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span>, и я не уверен, что она когда-нибудь появится.</p>
<p>В заключении заметим, что метод выбора в пакете ставит на первое место динамическую часть модель (в нашем примере - это ETS), нежели часть с экзогенными переменными. Это соответствует подходу прогнозистов к моделированию: мы используем экзогенные переменные как инструмент для объяснения тех характеристик временного ряда, которые обычная модель не смогла выловить. Классический подход эконометристов обычно подразумевает обратное: построение регрессии с последующим включением динамических компонент (например, авторегрессии). У такого подхода другая цель, поэтому и результаты будут другими.</p>
<p>Сообщение <a href="https://openforecast.org/ru/2018/02/10/xreg-advanced/">Пакет «smooth» для R. Общие параметры. Часть 4. Экзогенные переменные. Продвинутый уровень</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://openforecast.org/ru/2018/02/10/xreg-advanced/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Пакет «smooth» для R. Общие параметры. Часть 3. Экзогенные переменные. Основы</title>
		<link>https://openforecast.org/ru/2018/01/15/xreg-basics/</link>
					<comments>https://openforecast.org/ru/2018/01/15/xreg-basics/#comments</comments>
		
		<dc:creator><![CDATA[Ivan Svetunkov]]></dc:creator>
		<pubDate>Mon, 15 Jan 2018 14:42:01 +0000</pubDate>
				<category><![CDATA[R]]></category>
		<category><![CDATA[Общая информация]]></category>
		<category><![CDATA[Пакет smooth для R]]></category>
		<category><![CDATA[Экстраполяционные методы]]></category>
		<category><![CDATA[ARIMA]]></category>
		<category><![CDATA[ETS]]></category>
		<category><![CDATA[smooth]]></category>
		<guid isPermaLink="false">https://openforecast.org/?p=1632</guid>

					<description><![CDATA[<p>Одно из преимуществ функций пакета smooth &#8212; это возможность использовать экзогенные переменные (регрессоры). Это потенциально может привести к росту точности прогнозов, в случае, если у вас в распоряжении есть хорошие оценки будущих значений включённых переменных. Например, в случае с ритейлом в качестве экзогенной переменной может выступать наличие акции в магазине (&#171;купите один шампунь, получите ящик [&#8230;]</p>
<p>Сообщение <a href="https://openforecast.org/ru/2018/01/15/xreg-basics/">Пакет «smooth» для R. Общие параметры. Часть 3. Экзогенные переменные. Основы</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Одно из преимуществ функций пакета smooth &#8212; это возможность использовать экзогенные переменные (регрессоры). Это потенциально может привести к росту точности прогнозов, в случае, если у вас в распоряжении есть хорошие оценки будущих значений включённых переменных. Например, в случае с ритейлом в качестве экзогенной переменной может выступать наличие акции в магазине (&#171;купите один шампунь, получите ящик пива в подарок&#187;). Эту информацию мы можем знать заранее, причём со 100% точностью, если мы планируем проводить похожие акции в будущем. И, конечно же, использование этой информации должно повысить точность прогнозов по нашей модели.</p>
<p>Для подобных целей в R уже есть функция <span class="lang:r decode:true crayon-inline">arima()</span> из пакета <span class="lang:r decode:true crayon-inline">stats</span>, но, к сожалению, любимая практикующими прогнозистами модель экспоненциального сглаживания (<span class="lang:r decode:true crayon-inline">ets()</span> из пакета <span class="lang:r decode:true crayon-inline">forecast</span>) не поддерживает экзогенные переменные. Это была одна из причин, почему я взялся за разработку функций пакета <span class="lang:r decode:true crayon-inline">smooth</span>. Теперь все функции в пакете (кроме <span class="lang:r decode:true crayon-inline">sma()</span>) предоставляют возможность по включению экзогенных переменных.</p>
<p>В <span class="lang:r decode:true crayon-inline">smooth</span> реализовано две модели для работы с экзогенными переменными: модель с аддитивными и с мультипликативными ошибками. Первая формулируется следующим образом:<br />
\begin{equation} \label{eq:additive}<br />
	y_t = w&#8217; v_{t-l} + a_1 x_{1,t} + a_2 x_{2,t} + … + a_k x_{k,t} + \epsilon_t ,<br />
\end{equation}<br />
где \(a_1, a_2, …, a_k\) &#8212; параметры соответствующих регрессоров \(x_{1,t}, x_{2,t}, …, x_{t,k}\). Все остальные переменные мы уже обсуждали <a href="/2016/11/02/smooth-package-for-r-es-function-part-ii-pure-additive-models-ru/">в предыдущих статьях</a>.<br />
Вторая модель выглядит немного по-другому, так как она основана на <a href="/2016/11/18/smooth-package-for-r-es-function-part-iii-pure-multiplicative-models-ru/">мультипликативной ETS</a>:<br />
\begin{equation} \label{eq:multiplicative}<br />
	\log y_t = w&#8217; \log(v_{t-1}) + a_1 x_{1,t} + a_2 x_{2,t} + … + a_k x_{k,t} + \log(1 + \epsilon_t) ,<br />
\end{equation}<br />
Она может быть так же представлена в следующем виде:<br />
\begin{equation} \label{eq:multiplicativeAlternative}<br />
	y_t =\exp \left({w&#8217; \log(v_{t-1})} \right) \exp(a_1 x_{1,t}) \exp(a_2 x_{2,t}) \dots \exp(a_k x_{k,t}) (1 + \epsilon_t).<br />
\end{equation}<br />
Эта модель соответствует лог-линейной. Такая форма принята для того, чтобы в качестве экзогенных можно было бы использовать фиктивные переменные. Если вам нужна лог-лог модель, то для этого достаточно всего лишь прологарифмировать экзогенную переменную перед использованием её в функции.</p>
<p>Важно отметить, что смешанные модели могут вызвать проблемы, так как в таком случае некоторые компоненты складываются, а другие &#8212; перемножаются. Поэтому я бы рекомендовал использовать либо <a href="/2016/11/02/smooth-package-for-r-es-function-part-ii-pure-additive-models-ru/">чистые аддитивные</a>, либо <a href="/2016/11/18/smooth-package-for-r-es-function-part-iii-pure-multiplicative-models-ru/">чистые мультипликативные</a> ETSX (<a href="/2017/01/24/smooth-package-for-r-es-function-part-iv-model-selection-and-combination-of-forecasts-2/">в статье про выбор моделей</a> описано, как можно осуществить выбор на основе чистых моделей).</p>
<p>Итак, для того, чтобы построить модель с заданными регрессорами, достаточно просто передать в функцию вектор, матрицу либо data.frame: </p>
<pre class="decode">ourModel <- es(BJsales, "XXN", xreg=BJsales.lead, h=10, holdout=TRUE, silent=FALSE)</pre>
<pre>Estimation progress: 100%... Done! 
Time elapsed: 0.27 seconds
Model estimated: ETSX(AAdN)
Persistence vector g:
alpha  beta 
0.939 0.301 
Damping parameter: 0.877
Initial values were optimised.
7 parameters were estimated in the process
Residuals standard deviation: 1.381
Xreg coefficients were estimated in a normal style
Cost function type: MSE; Cost function value: 1.811

Information criteria:
     AIC     AICc      BIC 
494.4490 495.2975 515.0405 
Forecast errors:
MPE: 1.2%; Bias: 91.3%; MAPE: 1.3%; SMAPE: 1.3%
MASE: 2.794; sMAE: 1.5%; RelMAE: 0.917; sMSE: 0%</pre>
<div id="attachment_1623" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2018/01/BJsalesETSXSimple.png"><img decoding="async" aria-describedby="caption-attachment-1623" src="/wp-content/uploads/2018/01/BJsalesETSXSimple-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1623" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSimple-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSimple-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSimple-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2018/01/BJsalesETSXSimple.png&amp;nocache=1 1200w" sizes="(max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1623" class="wp-caption-text">BJsales series and ETSX with a leading indicator</p></div>
<p>В этом примере мы используем данные о продажах из книги Box & Jenkins (1976). Я попросил функцию использовать провести процедуру ретропрогноза и сделать прогноз на 10 шагов вперёд, так что последние 10 наблюдений переменной <span class="lang:r decode:true crayon-inline">BJsales.lead</span> используются для построения прогнозов. Функция построила модель и доложила нам, что параметры были оценены обычным методом (7 parameters were estimated in the process). Это значит, что мы предполагаем, что коэффициенты при регрессорах не меняются во времени. Альтернативный этому подход будет рассмотрен когда-нибудь в будущем.</p>
<p>Судя по всему, выбранная модель ETS(A,Ad,N) дала не самые точные, да ещё и смещённые прогнозы (систематическое отклонение от фактических значений в проверочной выборке). Пока что особых улучшений от включения переменной не видно...</p>
<p>Если в какой-то момент времени вы, вдруг, забудете о том, какая именно модель перед вами, вы можете воспользоваться функцией <span class="lang:r decode:true crayon-inline">formula()</span>, которая в случае с функциями <span class="lang:r decode:true crayon-inline">smooth</span> носит чисто описательный характер:</p>
<pre class="decode">formula(ourModel)</pre>
<pre>"y[t] = l[t-1] + b[t-1] + a1 * x[t] + e[t]"</pre>
<p>Функция рассказала нам, что уровень l[t-1], тренд b[t-1], экзогенная переменная "x[t]" и ошибка в нашей модели складываются. Если бы мы передали матрицу с экзогенными переменными или же построили модель с динамически меняющимися параметрами, то это было бы отражено в формуле. Использовать эту формулу так же, как и это сделается в lm(), к сожалению, нельзя.</p>
<p>Для сравнения построим следующую смешанную модель и посмотрим на её формулу:</p>
<pre class="decode">ourModel <- es(BJsales, "MAN", xreg=BJsales.lead, h=10, holdout=TRUE)
formula(ourModel)</pre>
<pre>"y[t] = (l[t-1] + b[t-1]) * exp(a1 * x[t]) * e[t]"</pre>
<p>Как видим, вначале тренд и уровень складываются, а потом это всё умножается на экспоненту нашей переменной. Если по какой-то причине тренд будет негативным, а уровень окажется близок к нулю, то экзогенная переменная будет умножена на отрицательное число. В результате получится бессмысленный прогноз. Это одна из причин, почему я не люблю смешанные модели и говорю, что использовать их надо с осторожностью.</p>
<p>Однако, вернёмся к нашим баранам. Если в нашем распоряжении нет значений экзогенной переменной для проверочной части выборки, то функции пакета <span class="lang:r decode:true crayon-inline">smooth</span> автоматически построят прогнозы для каждой из экзогенных переменных с помощью <span class="lang:r decode:true crayon-inline">es()</span> или <span class="lang:r decode:true crayon-inline">iss()</span> в зависимости от того, имеем мы дело с обычной или же с бинарной переменной. В последнем случае в качестве прогноза будет получена условная средняя, поэтому не удивляйтесь, если для вашей фиктивной переменной прогнозом будет что-нибудь типа 0,784. Так что не стоит использовать функцию вслепую, когда <span class="lang:r decode:true crayon-inline">holdout=FALSE</span>, будьте осторожны. Вот как функция работает в этом случае:</p>
<pre class="decode">es(BJsales, "XXN", xreg=BJsales.lead, h=10, holdout=FALSE, silent=FALSE)</pre>
<p>Нам должны сообщить о том, что функция сделала для нас (построила прогнозы экзогенных переменных):</p>
<pre>Warning message:
xreg did not contain values for the holdout, so we had to predict missing values.</pre>
<p>Если ваши переменные по размеру превышают выходную переменную, то функция удалит последние лишние наблюдения:</p>
<pre class="decode">ourModel <- es(BJsales[1:140], "XXN", xreg=BJsales.lead, h=10, holdout=TRUE)</pre>
<p>и сообщит нам об этом:</p>
<pre>Warning message:
xreg contained too many observations, so we had to cut off some of them.</pre>
<p>Как видите, функцию можно использовать напрямую, но, если вам хочется работать с <span class="lang:r decode:true crayon-inline">forecast()</span> (что совершенно необязательно), то это можно сделать так:</p>
<pre class="decode">forecast(ourModel, h=10, xreg=BJsales.lead)</pre>
<p>Из-за того, как реализовано использование экзогенных переменных в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span>, переменная <span class="lang:r decode:true crayon-inline">xreg</span> должна содержать все значения, а не только те, которые соответствуют проверочной выборке. Если вы вместо <span class="lang:r decode:true crayon-inline">xreg</span> передадите значения из проверочной выборки, то функция решит, что у вас мало наблюдений и построит прогнозы.</p>
<p>Я бы рекомендовал плюнуть на функцию <span class="lang:r decode:true crayon-inline">forecast()</span> и использовать <span class="lang:r decode:true crayon-inline">es()</span>, <span class="lang:r decode:true crayon-inline">ssarima()</span> и другие функции пакета <span class="lang:r decode:true crayon-inline">smooth</span> напрямую. Так вы сможете подготовить свои переменные и использовать их напрямую без дополнительных строк кода.</p>
<p>Аналогично тому, как это обсуждалось <a href="/2017/06/11/prediction-intervals/">в прошлой статье</a>, вы можете попросить функцию построить прогнозные интервалы. Только имейте в виду, что параметрические интервалы на данный момент не очень точны, так как не берут в расчёт возможный корреляции между экзогенными переменными и компонентами ETS. Сделать это сложно, поэтому эта функция и не реализована. Поэтому я бы рекомендовал в случае с ETSX, ARIMAX и пр. строить полупараметрические и непараметрические интервалы.</p>
<p>Наконец, вы всегда можете задать параметры для экзогенных переменных вручную, через переменную <span class="lang:r decode:true crayon-inline">initialX</span>:</p>
<pre class="decode">ourModel <- es(BJsales, "XXN", xreg=BJsales.lead, h=10, holdout=T, initialX=c(-1))</pre>
<p>Помимо всего этого, функции достаточно умны, чтобы определить, коррелируют ли переданные регрессоры друг с другом и есть ли в них дисперсия. Если что-то из переданного функции не так, она выкинет те переменные, которые вызывают проблемы:</p>
<pre class="decode">es(BJsales, "XXN", xreg=cbind(BJsales.lead,BJsales.lead), h=10, holdout=TRUE)</pre>
<pre>Warning message:
Some exogenous variables were perfectly correlated. We've dropped them out.</pre>
<p>Из-за того, что мы включили BJsales.lead дважды, регрессор вызвал совершенную мультиколлинеарность, поэтому функция выкинула один из них.</p>
<pre class="decode">es(BJsales, "XXN", xreg=cbind(BJsales.lead,rep(100,150)), h=10, holdout=TRUE)</pre>
<pre>Warning message:
Some exogenous variables do not have any variability. Dropping them out.</pre>
<p>А тут функция заметила, что вторая переменная постоянна, а значит и не может быть использована для моделирования, и, опять же, выкинула её.</p>
<p>Если вы случайно включите выходную переменную (в нашем примере это BJsales) в число регрессоров, то функция так же выкинет её:</p>
<pre class="decode">es(BJsales, "XXN", xreg=cbind(BJsales,BJsales.lead), h=10, holdout=TRUE)</pre>
<pre>Warning message:
One of exogenous variables and the forecasted data are exactly the same. We have dropped it.</pre>
<p>На этом основы заканчиваются. Далее мы перейдём к более продвинутым и интересным аспектам по использованию экзогенных переменных в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span>.</p>
<p>Сообщение <a href="https://openforecast.org/ru/2018/01/15/xreg-basics/">Пакет «smooth» для R. Общие параметры. Часть 3. Экзогенные переменные. Основы</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://openforecast.org/ru/2018/01/15/xreg-basics/feed/</wfw:commentRss>
			<slash:comments>5</slash:comments>
		
		
			</item>
		<item>
		<title>Пакет «smooth» для R. Общие параметры. Часть 2. Оценка параметров</title>
		<link>https://openforecast.org/ru/2017/11/20/estimation-of-smooth/</link>
					<comments>https://openforecast.org/ru/2017/11/20/estimation-of-smooth/#respond</comments>
		
		<dc:creator><![CDATA[Ivan Svetunkov]]></dc:creator>
		<pubDate>Mon, 20 Nov 2017 17:21:15 +0000</pubDate>
				<category><![CDATA[R]]></category>
		<category><![CDATA[Общая информация]]></category>
		<category><![CDATA[Пакет smooth для R]]></category>
		<category><![CDATA[Экстраполяционные методы]]></category>
		<category><![CDATA[ARIMA]]></category>
		<category><![CDATA[ETS]]></category>
		<category><![CDATA[smooth]]></category>
		<category><![CDATA[статистика]]></category>
		<guid isPermaLink="false">https://openforecast.org/?p=1382</guid>

					<description><![CDATA[<p>Прежде чем мы приступим к обсуждению сегоднешней темы, я бы рекомендовал обратиться к статье &#171;Элементы математической статистики, проверка гипотез&#187; электронного учебника &#8212; нам понадобятся сегодня такие понятия, как несмещённость, эффективность и состоятельность. Здесь их лишний раз обсуждать нехочется. Кроме того, многое, что мы рассмотрим сегодня, уже описано в главах &#171;Простые методы оценки параметров моделей» и [&#8230;]</p>
<p>Сообщение <a href="https://openforecast.org/ru/2017/11/20/estimation-of-smooth/">Пакет «smooth» для R. Общие параметры. Часть 2. Оценка параметров</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Прежде чем мы приступим к обсуждению сегоднешней темы, я бы рекомендовал обратиться к статье &#171;<a href="/forecasting_toolbox/statistics-and-hypothesis/">Элементы математической статистики, проверка гипотез</a>&#187; электронного учебника &#8212; нам понадобятся сегодня такие понятия, как несмещённость, эффективность и состоятельность. Здесь их лишний раз обсуждать нехочется.</p>
<p>Кроме того, многое, что мы рассмотрим сегодня, уже описано в главах &#171;<a href="/forecasting_toolbox/estimation-simple-methods/">Простые методы оценки параметров моделей</a>» и &#171;<a href="/forecasting_toolbox/estimation-advanced-methods/">Продвинутые методы оценки параметров моделей</a>». Поэтому теортическую часть мы обсуждать не будем, а лучше сконцентрируемся на том, как это сделать в R.</p>
<h3>Методы оценки на основе одношаговых прогнозов</h3>
<p>Начнём с того, что выберем временной ряд, с которым будем работать. Например, вот такой:</p>
<pre class="decode">x <- ts(c(M3$N1823$x,M3$N1823$xx),frequency=frequency(M3$N1823$x))</pre>
<p>Выглядит он вот так:</p>
<pre class="decode">plot(x)</pre>
<div id="attachment_1360" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators01.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1360" src="/wp-content/uploads/2017/10/SmoothEstimators01-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1360" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators01-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators01-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators01-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators01.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1360" class="wp-caption-text">Ряд N1823</p></div>
<p>Похоже, что в ряде имеется небольшая мультипликативная сезонность, но её тяжело распознать. Для простоты в нашем примере мы будем использовать простую модель ETS(A,A,N) с аддитивной ошибкой и аддитивным трендом. Как это водится в данных M3, для проверочной выборки мы будем использовать последние 18 наблюдений.</p>
<p>Начнём с модели, оценённой путём минимизации MSE.</p>
<ul>
<li>MSE.</li>
</ul>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T)</pre>
<div id="attachment_1361" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators02.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1361" src="/wp-content/uploads/2017/10/SmoothEstimators02-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1361" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1361" class="wp-caption-text">N1823 и модель ETS(A,A,N) с MSE</p></div>
<p>Вот информация о полученной модели:</p>
<pre>Time elapsed: 0.08 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
0.147 0.000 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 629.249
Cost function type: MSE; Cost function value: 377623.069

Information criteria:
     AIC     AICc      BIC 
1703.389 1703.977 1716.800 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -14%; Bias: -74.1%; MAPE: 16.8%; SMAPE: 15.1%
MASE: 0.855; sMAE: 13.4%; RelMAE: 1.047; sMSE: 2.4%</pre>
<p>Тут сложно прийти к каким-нибудь конкретным заключениям, но, судя по всему, в прогнозе наблюдается небольшое систематическое завышение (это показывает MPE). При этом относительная MAE (RelMAE) оказалась больше единицы, что говорит о том, что метод Naive лучше справляется с задачей прогнозирования этого ряда, чем ETS(A,A,N). Посмотрим на остатки модели:</p>
<pre class="decode">qqnorm(resid(ourModel))
qqline(resid(ourModel))</pre>
<div id="attachment_1363" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators02QQ.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1363" src="/wp-content/uploads/2017/10/SmoothEstimators02QQ-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1363" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02QQ-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02QQ-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02QQ-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators02QQ.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1363" class="wp-caption-text">График Квантиль-квантиль по остаткам модели ETS(A,A,N), оценённой MSE</p></div>
<p>Остатки выглядят ненормально - много эмпирических квантилей оказались расположены далеко от теоретических значений. Тест на нормальность Шапиро-Уилка отвергает гипотезу о нормальности распределения остатков на 5% уровне:</p>
<pre class="decode">shapiro.test(resid(ourModel))
> p-value = 0.001223</pre>
<p>Это может указывать на то, что другие методы оценки могут справиться с оценкой параметров лучше. И в функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span> есть специальный волшебный параметра для этого - <span class="lang:r decode:true crayon-inline">loss</span>. Попробуем оценить ту же модель с помощью других методов.</p>
<ul>
<li>MAE.</li>
</ul>
<p>Минимум MAE находится с помощью команды:</p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,loss="MAE")</pre>
<p>и даёт следующие результаты:<br />
<div id="attachment_1362" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators03.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1362" src="/wp-content/uploads/2017/10/SmoothEstimators03-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1362" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1362" class="wp-caption-text">N1823 и ETS(A,A,N), оценённой с помощью MAE</p></div>
<pre>Time elapsed: 0.09 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
0.101 0.000 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 636.546
Cost function type: MAE; Cost function value: 462.675

Information criteria:
     AIC     AICc      BIC 
1705.879 1706.468 1719.290 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -5.1%; Bias: -32.1%; MAPE: 12.9%; SMAPE: 12.4%
MASE: 0.688; sMAE: 10.7%; RelMAE: 0.842; sMSE: 1.5%</pre>
<p>Что же получилось? Во-первых, постоянная сглаживания альфа оказалась меньше, чем в предыдущей модели, что говорит о том, что полученная модель менее чувствительна к выбросам и более консервативна. Во-вторых, RelMAE оказалась меньше нуля, что говорит о том, что данная модель лучше справляется с прогнозированием, чем Naive и чем предыдущая. Это, возможно, как раз вызвано робастностью данного метода оценки. В-третьих, по графику видно, что полученный прогноз проходит где-то между наблюдениями в проверочной выборке, что является желаемым поведением прогнозной модели. Остатки всё ещё распределены ненормально, но это вполне ожидаемо, так как другой метод оценки не делает их нормальными, а просто позволяет получить значения, менее чувствительные к выбросам:</p>
<div id="attachment_1364" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators03QQ.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1364" src="/wp-content/uploads/2017/10/SmoothEstimators03QQ-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1364" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03QQ-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03QQ-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03QQ-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators03QQ.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1364" class="wp-caption-text">График Квантиль-квантиль по остаткам модели ETS(A,A,N), оценённой MAE</p></div>
<ul>
<li>HAM – Half Absolute Moment.</li>
</ul>
<p>Здесь стоит немного остановиться, так как этот метод оценки мы ещё не рассматривали в учебнике. Формула его выглядит так:<br />
\begin{equation} \label{eq:HAM}<br />
	\text{HAM} = \frac{1}{T} \sum_{t=1}^T \sqrt{|e_{t+1}|}<br />
\end{equation}<br />
Особенность данного метода оценки заключается в том, что масштаб ошибок уменьшается за счёт взятия корня. В результате этого модель, оценённая HAM оказывается ещё более устойчивой к выбросам, чем MAE. Более того, для модели становятся важны более мелкие и часто встречающиеся отклонения, нежели крупные и редкие. Минимум этой функции на целочисленных данных соответствует моде. В случае с непрерывными - чему-то между модой и медианой. На эту тему я с коллегами сейчас провожу исследование. Этот метод оценки даёт состоятельные, но менее эффективные оценки параметров, чем MSE и MAE.</p>
<p>Посмотрим, что получится:</p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,loss="HAM")</pre>
<div id="attachment_1365" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators04.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1365" src="/wp-content/uploads/2017/10/SmoothEstimators04-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1365" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators04-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators04-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators04-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators04.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1365" class="wp-caption-text">N1823 и ETS(A,A,N) с HAM</p></div>
<pre>Time elapsed: 0.06 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
0.001 0.001 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 666.439
Cost function type: HAM; Cost function value: 19.67

Information criteria:
     AIC     AICc      BIC 
1715.792 1716.381 1729.203 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -1.7%; Bias: -14.1%; MAPE: 11.4%; SMAPE: 11.4%
MASE: 0.63; sMAE: 9.8%; RelMAE: 0.772; sMSE: 1.3%</pre>
<p>Судя по прогнозным ошибкам и графику, эта модель дала ещё более точные прогнозы, чем модель, оценённая с помощью MAE. Правда сделала она это приблизив обе постоянные сглаживания к нулю. Обратите внимание, что стандартное отклонение в этом случае оказалось выше, чем в случае с MAE, которое в свою очередь выше, чем MSE. Это означает, что одношаговые прогнозные интервалы будут шире у HAM, чем у MAE, чем у MSE. Однако, учитывая величину постоянных сглаживания в нашем примере, многошаговые интервалы у модель с HAM, скорее всего, будут уже остальных.</p>
<p>Кроме того, стоит заметить, что оптимизация моделей с использованием разных методов оценки происходит с разной скоростью. MSE - самый медленный метод оценки, в то время как HAM - самый быстрый. Вызвано это формой математической функции (в случае с MSE - парабола, с MAE - линейная, с HAM - корень) и тем, как работают эвристические методы оптимизации. Разница в скорости может быть существенной, особенно, если вы работаете с большими выборками. Так что, если вы спешите, а какие-нибудь оценки нужно получить быстро, попробуйте HAM. Только не забывайте, что информационные критерии в этом случае могут давать неточные результаты.</p>
<h3>Методы оценки на основе многошаговых прогнозов</h3>
<p>Следующие три метода используют идею, рассмотренную нами в главе "<a href="/forecasting_toolbox/estimation-advanced-methods/">Продвинутые методы оценки параметров</a>». Эти методы дают состоятельные, но не эффективны, а зачастую ещё и смещённые оценки параметров. Возникает вопрос, зачем ими тогда пользоваться? А всё дело в том, что эти методы "сжимают" параметры моделей, делая сами модели более "консервативными", ближе к детерминистическим и минимизируя влияние шумов на прогноз. Это оказывается особенно полезно в случаях с высокочастотными данными, когда асимптотические свойства начинают работать, а эффективность оценок растёт.</p>
<ul>
<li>MSE\(_h\) - Mean Squared Error для прогноза на h шагов вперёд:</li>
</ul>
<p>Посмотрим, что получится, если использовать его для оценки нашей модели:</p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,loss="MSEh")</pre>
<div id="attachment_1366" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators05.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1366" src="/wp-content/uploads/2017/10/SmoothEstimators05-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1366" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators05-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators05-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators05-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators05.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1366" class="wp-caption-text">N1823 и ETS(A,A,N) с MSEh</p></div>
<pre>Time elapsed: 0.24 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
    0     0 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 657.781
Cost function type: MSEh; Cost function value: 550179.34

Information criteria:
     AIC     AICc      BIC 
30393.86 30404.45 30635.25 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -10.4%; Bias: -62%; MAPE: 14.9%; SMAPE: 13.8%
MASE: 0.772; sMAE: 12.1%; RelMAE: 0.945; sMSE: 1.8%</pre>
<p>Как видим, обе постоянные сглаживания оказались равными нулю, в результате чего мы получили прямую линию, проходящую через все наблюдения. Если бы в нашем распоряжении было 1008, а не 108 наблюдений, тогда параметры были бы отличны от нуля, так как модель вынуждена была бы адаптироваться к изменениям в данных. Но мы получили, что получили...</p>
<ul>
<li>TMSE – Trace Mean Squared Error:</li>
</ul>
<p>Опять же, на наших данных:</p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,loss="TMSE")</pre>
<div id="attachment_1666" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/11/SmoothEstimators06.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1666" src="/wp-content/uploads/2017/11/SmoothEstimators06-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1666" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/11/SmoothEstimators06-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/11/SmoothEstimators06-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/11/SmoothEstimators06-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/11/SmoothEstimators06.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1666" class="wp-caption-text">N1823 and ETS(A,N,N) with TMSE</p></div>
<pre>Time elapsed: 0.2 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
0.075 0.000 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 633.48
Cost function type: TMSE; Cost function value: 7477097.717

Information criteria:
     AIC     AICc      BIC 
30394.36 30404.94 30635.75 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -7.5%; Bias: -48.9%; MAPE: 13.4%; SMAPE: 12.6%
MASE: 0.704; sMAE: 11%; RelMAE: 0.862; sMSE: 1.5%</pre>
<p>Сравнивая эту модель с моделью с MSE и MSE\(_h\), можно заметить, что в случае с TMSE постоянная сглаживания для уровня ряда лежит где-то между постоянными сглаживания предыдущих моделей. Это демонстрирует тот самый, эффект, который мы обсуждали в учебнике: многошаговые прогнозы тянут параметры к нулю, в то время как одношаговые их немного поднимают вверх. Тем не менее, я бы рекомендовал использовать TMSE на больших выборках, где оценки параметров становятся более эффективными и менее смещёнными.</p>
<ul>
<li>GTMSE – Geometric Trace Mean Squared Error:</li>
</ul>
<p>Этот метод оценки мы тоже уже <a href="/forecasting_toolbox/estimation-advanced-methods/">обсуждали в учебнике</a>. </p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,loss="GTMSE")</pre>
<div id="attachment_1368" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators07.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1368" src="/wp-content/uploads/2017/10/SmoothEstimators07-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1368" /></a><p id="caption-attachment-1368" class="wp-caption-text">N1823 and ETS(A,A,N) with GTMSE</p></div>
<pre>Time elapsed: 0.18 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
    0     0 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 649.253
Cost function type: GTMSE; Cost function value: 232.419

Information criteria:
     AIC     AICc      BIC 
30402.77 30413.36 30644.16 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -8.2%; Bias: -53.8%; MAPE: 13.8%; SMAPE: 12.9%
MASE: 0.72; sMAE: 11.3%; RelMAE: 0.882; sMSE: 1.6%</pre>
<p>В нашем примере этот метод оценки также сжал параметры к нулю, сделав модель детерминистической, что соответствует результатам, полученным с помощью MSE\(_h\). Однако, стартовые значения у методы получились немного другими, что привело к другим прогнозам.</p>
<p>Имейте в виду, что все эти методы оценки значительно более требовательны к расчётном времени, потому что для каждого из них нужно сделать прогноз на h шагов вперёд из каждого наблюдения в обучающей выборке.</p>
<ul>
<li>Аналитические многошаговые методы оценки.</li>
</ul>
<p>В функциях пакета <span class="lang:r decode:true crayon-inline">smooth</span> есть ещё одна полезная, незадокументированная функция (доступная пока только для чистых аддитивных моделей) – использование аналитических аналогов многошаговых методов оценки. Вызываются такие методы путём добавления буквы "a" перед названием желаемого метода оценки: aMSEh, aTMSE, aGTMSE.  В этом случае одношаговые ошибки и параметры модели будут использоваться для реконструирования многошаговых методов оценки. Эта опция полезна в том случае, когда вам нужно использовать какой-то метод оценки на малых выборках. Также эти методы могут быть полезны, если вы работаете с большими выборками, но хотите, чтобы модель была построена относительно быстро.</p>
<p>Эти методы оценки имеют свойства схожие со свойствами их эмпирических аналогов, но работают быстрее и используют асимптотические свойства.</p>
<p>Вот пример использования аналитичекого MSE\(_h\):</p>
<pre class="decode">ourModel <- es(x,"AAN",silent=F,interval="p",h=18,holdout=T,cfType="aMSEh")</pre>
<div id="attachment_1377" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/10/SmoothEstimators09.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1377" src="/wp-content/uploads/2017/10/SmoothEstimators09-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1377" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators09-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators09-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators09-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/10/SmoothEstimators09.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1377" class="wp-caption-text">N1823 и ETS(A,A,N) с aMSEh</p></div>
<pre>Time elapsed: 0.11 seconds
Model estimated: ETS(AAN)
Persistence vector g:
alpha  beta 
    0     0 
Initial values were optimised.
5 parameters were estimated in the process
Residuals standard deviation: 627.818
Cost function type: aMSEh; Cost function value: 375907.976

Information criteria:
     AIC     AICc      BIC 
30652.15 30662.74 30893.55 
95% parametric prediction intervals were constructed
100% of values are in the prediction interval
Forecast errors:
MPE: -1.9%; Bias: -14.6%; MAPE: 11.7%; SMAPE: 11.6%
MASE: 0.643; sMAE: 10%; RelMAE: 0.787; sMSE: 1.3%</pre>
<p>Итоговые постоянные сглаживания получились равными нулю, аналогично тому, что мы наблюдали в MSE\(_h\). Стартовые значения модели при этом получились немного другие, поэтому и прогноз оказался другим (по сравнению с MSE\(_h\)). На себя так же обращает внимание то, что модель была оценена и сконструирована за 0.11 секунд, а не за 0.24, как в случае с MSE\(_h\).</p>
<ul>
<li>Аналогично тому, как это было с MSE, в функциях <span class="lang:r decode:true crayon-inline">smooth</span> реализованы и многошаговые MAE и HAM (типа MAE\(_h\) и THAM). Правда, они там просто потому что я смог их сделать, а не потому что они имеют какой-то особый смысл. К их изучению я ещё даже не думал приступать.</li>
</ul>
<h3>Заключение</h3>
<p>Теперь, когда мы обсудили все возможные методы оценки функций пакета <span class="lang:r decode:true crayon-inline">smooth</span>, у вас может возникнуть закономерный вопрос: "Что же использовать?". Честно говоря, у меня пока нет однозначного ответа на этот вопрос, так как это направление ещё не до конца изучено. Но у меня есть некоторые советы, которые хотелось бы здесь привести:</p>
<p>Во-первых, <a href="http://kourentzes.com/forecasting/2015/08/20/forecasting-solar-irradiance-true-models-trace-optimisation-and-shrinkage/" rel="noopener noreferrer" target="_blank">Никос Курентзес и Хуан Рамон Траперо выяснили</a>, что в случае с высокочастотными данными использование MSE\(_h\) и TMSE приводит к увеличению точности прогнозов по сравнению с MSE. Однако, если в случае с MSE\(_h\) для этого нужно построить h моделей, TMSE позволяет построить одну, что в разы уменьшает время расчётов. Точность прогнозов при использовании TMSE и MSE\(_h\) оказывается сопостовимой.</p>
<p>Во-вторых, если вы сталкиваетесь с асимметричным распределением остатков при оценке с помощью MSE, попробуйте использовать MAE и HAM – они могут улучшить прогнозную точность моделей.</p>
<p>В-третьих, аналитические версии многошаговых методов я бы рекомендовал использовать на больших выборках, когда скорость вычислений важна, а свойства этих методов хочется использовать. Ну, или в ситуации, когда выборка наоборот маленькая, а свойства хочется использовать (эмпирические значения получить в этом случае затруднительно).</p>
<p>Наконец, не стоит спользовать MSE\(_h\), TMSE и GTMSE если вас интересуют параметры моделей (а не точность прогнозов) – они скорее всего будут неэффективными и смещёнными. Это применимо как к ETS, так и к ARIMA, которые в этом случае становятся близкими к детерминистическим моделям. Используйте MSE и не выпендривайтесь!</p>
<p>Сообщение <a href="https://openforecast.org/ru/2017/11/20/estimation-of-smooth/">Пакет «smooth» для R. Общие параметры. Часть 2. Оценка параметров</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://openforecast.org/ru/2017/11/20/estimation-of-smooth/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Пакет «smooth» для R. Общие параметры. Часть 1. Прогнозные интервалы</title>
		<link>https://openforecast.org/ru/2017/06/11/prediction-intervals/</link>
					<comments>https://openforecast.org/ru/2017/06/11/prediction-intervals/#comments</comments>
		
		<dc:creator><![CDATA[Ivan Svetunkov]]></dc:creator>
		<pubDate>Sun, 11 Jun 2017 13:23:40 +0000</pubDate>
				<category><![CDATA[R]]></category>
		<category><![CDATA[Общая информация]]></category>
		<category><![CDATA[Пакет smooth для R]]></category>
		<category><![CDATA[Прикладное прогнозирование]]></category>
		<category><![CDATA[Экстраполяционные методы]]></category>
		<category><![CDATA[ARIMA]]></category>
		<category><![CDATA[CES]]></category>
		<category><![CDATA[ETS]]></category>
		<category><![CDATA[smooth]]></category>
		<guid isPermaLink="false">https://openforecast.org/?p=1266</guid>

					<description><![CDATA[<p>Предыдущие 6 статей мы обсуждали основные свойства функции es(). Пришло время двигаться дальше. Начиная с этой статьи мы обсудим параметры, общие для всех функций, реализованных в пакете smooth. К таким функциям относятся: es(), ssarima(), ces(), ges() и sma(). Однако, беря во внимание, что на данный момент мы обсудили только экспоненциальное сглаживанием, все примеры мы будем [&#8230;]</p>
<p>Сообщение <a href="https://openforecast.org/ru/2017/06/11/prediction-intervals/">Пакет «smooth» для R. Общие параметры. Часть 1. Прогнозные интервалы</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Предыдущие 6 статей мы обсуждали основные свойства функции <code>es()</code>. Пришло время двигаться дальше. Начиная с этой статьи мы обсудим параметры, общие для всех функций, реализованных в пакете <code>smooth</code>. К таким функциям относятся: <code>es()</code>, <code>ssarima()</code>, <code>ces()</code>, <code>ges()</code> и <code>sma()</code>. Однако, беря во внимание, что на данный момент мы обсудили только экспоненциальное сглаживанием, все примеры мы будем рассматривать на основе <code>es()</code>.</p>
<p>Начнём с прогнозных интервалов.</p>
<h3>Прогнозные интервалы функций пакета smooth</h3>
<p>Одна из особенностей пакета <code>smooth</code> &#8212; это возможность конструировать разные типы прогнозных интервалов. Самый простой из них — это параметрические (включаются командой <code>interval="p"</code>, <code>interval="parametric"</code> или <span class="lang:r decode:true  crayon-inline " >interval=TRUE</code>). Эти интервалы выводятся аналитически из свойств аддитивных и мультипликативных моделей. На данный момент (<code>smooth</code> v2.0.0) только в функции <code>es()</code> реализованы мультипликативные компоненты. Все остальные функции используют аддитивную модель. Это делает функцию <code>es()</code> этакой уникальной снежинкой. И если с чистыми аддитивными или мультипликативными моделями особых проблем нет, то со смешанными начинается головная боль.</p>
<p>В случае с моделями ETS с мультипликативной ошибкой, немультипликативными трендом и сезонностью и низкой дисперсией ошибок (ниже 0.1), интервалы аппроксимируются соответствующими моделями с аддитивной ошибкой. Например, интервалы для модели ETS(M,A,N) могут быть успешно аппроксимированы интервалами модели ETS(A,A,N), так как в случае с низкой дисперсией лог-нормальное распределение оказывается очень близким к нормальному. Все остальные смешанные модели используют симуляции для построения интервалов (с помощью функции <code>sim.es()</code>). Данные генерируются с заданными параметрами модели на \(h\) наблюдений. Процесс симуляции повторяется 10000 раз, так что в нашем распоряжении оказывается 10000 возможных дальнейших траекторий фактических значений. После этого вычисляются нужные квантили для каждого шага прогноза (с помощью функции <code>quantile()</code> из пакета <code>stats</code>) и возвращаются прогнозные интервалы. Конечно, такой метод нельзя считать чистым параметрическим, но в случае со смешанными моделями по другому либо просто нельзя, либо крайне сложно.</p>
<p>В функции <code>es()</code> так же доступны полупараметрические (semiparametric) и непараметрические (nonparametric) прогнозные интервалы. Оба типа этих интервалов основаны на <a href="/forecasting_toolbox/estimation-advanced-methods/">траекторных прогнозных ошибках</a>, которые получаются за счёт построения прогнозов на период от 1 до \(h\) шагов вперёд из каждого наблюдения в обучающей выборке. В результате этого в нашем распоряжении оказывается матрица с \(h\) столбцами и  \(T-h\) строками. В случае с полупараметрическими интервалами (вызываются с помощью <code>interval="sp"</code> или <code>interval="semiparametric"</code>) на основе этой матрицы рассчитывается \(h\) дисперсий, которые затем используются при построении интервалов на основе либо нормального, либо лог-нормального распределения (в зависимости от типа модели). Такие интервалы могут быть полезны в случае, если нарушаются базовые предпосылки о гомоскедастичности и не автокоррелированности остатков модели. Тем не менее мы всё ещё предполагаем, что у остатков есть какое-то параметрическое распределение (нормальное / лог-нормальное). </p>
<p>В случае с непараметрическими интервалами (вызываются в R через <code>interval="np"</code> или <span class="lang:r decode:true  crayon-inline " >interval=&#187;nonparametric&#187;</code>) предпосылка о параметрическом распределении может быть опущена. В этом случае мы используем <a href="/forecasting_toolbox/estimation-simple-methods/">квантильные регрессии</a> (аналогично тому, как это было сделано в <a href="https://www.jstor.org/stable/2634872?seq=1#page_scan_tab_contents" target="_blank" rel="noopener noreferrer">Taylor and Bunn, 1999</a>). В основе этих моделей лежит следующая степенная функция:<br />
\begin{equation} \label{eq:ssTaylorPIs}<br />
	\hat{e}_{j} = a_0 j ^ {a_{1}},<br />
\end{equation}<br />
где \(j = 1, .., h\) &#8212; это горизонт прогнозирования. Преимуществом модели \eqref{eq:ssTaylorPIs} является отсутствие экстремумов для любых \(j>0\). Это означает, что прогнозные интервалы будут вести себя монотонно и не поменяют направление (в случае с полиномами мы можем получить очень странные интервалы с расширением, а затем — с сужением). Одновременно с этим, степенные функции позволяют аппроксимировать большой спектр возможных траекторий (в зависимости от параметров \(a_0\) и \(a_1\)), включая рост с замедлением, линейный рост или рост с ускорением.</p>
<p>Главная проблема непараметрических интервалов из пакета <code>smooth</code> заключается в том, что квантильные регрессии, лежащие в их основе, плохо себя ведут на малых выборках. Так для того, чтобы построить регрессию для 0.95 квантиля, нам нужно иметь как минимум 20 наблюдений. А для 0.99 квантиль &#8212; хотя бы 100. В случае, если в нашем распоряжении недостаточно наблюдений, прогнозные интервалы могут быть неточными и не соответствовать указанному номинальному уровню.</p>
<p>Заметим, что если пользователь строит прогноз на один шаг вперёд, то полупараметрические интервалы будут соответствовать параметрическим (так как в этом случае интервалы строятся на основе дисперсии на один шаг вперёд), а непараметрические интервалы конструируются с помощью функции <code>quantile()</code> пакета <code>stats</code>.</p>
<p>Ну, и последнее. Ширина прогнозных интервалов регулируется с помощью параметра <code>level</code>, который может быть задан как дробное число (<code>level=0.95</code>) либо как число в пределах от 0 до 100 (<code>level=95</code>). Я лично предпочитаю первый метод &#8212; второй нужен в основном для того, чтобы сделать функцию совместимой с функциями из пакета <code>forecast</code>. По умолчанию все прогнозные функции пакета <code>smooth</code> конструируют 95% прогнозные интервалы.</p>
<p>Существует ещё ряд особенностей при построении прогнозных интервалов для целочисленных моделей и кумулятивных прогнозов, но их мы пока касаться не будем.</p>
<h3>Примеры в R</h3>
<p>Рассмотрим построение интервалов на примере ряда N1241. Построим модель ETS(A,Ad,N) следующим образом:</p>
<pre class="decode" title="Пример использования">
ourModel1 <- es(M3$N1241$x, "AAdN", h=8, holdout=TRUE, interval="p")
ourModel2 <- es(M3$N1241$x, "AAdN", h=8, holdout=TRUE, interval="sp")
ourModel3 <- es(M3$N1241$x, "AAdN", h=8, holdout=TRUE, interval="np")</pre>
<p>В результате мы должны получить следующие графики:</p>
<div id="attachment_991" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-991" src="/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-991" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-parametric.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-991" class="wp-caption-text">Ряд N1241 из базы M3, прогноз с помощью es(), фактические значения из проверочной выборки и параметрические прогнозные интервалы</p></div>
<div id="attachment_990" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-990" src="/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-990" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-semiparametric.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-990" class="wp-caption-text">Ряд N1241 из базы M3, прогноз с помощью es(), фактические значения из проверочной выборки и полупараметрические прогнозные интервалы</p></div>
<div id="attachment_989" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-989" src="/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-989" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2016/10/N1241-AAdN-PI-nonparametric.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-989" class="wp-caption-text">Ряд N1241 из базы M3, прогноз с помощью es(), фактические значения из проверочной выборки и непараметрические прогнозные интервалы</p></div>
<p>Как видим, во всех случаях интервалы накрыли все фактически значения из тестовой выборки. В первую очередь это из-за того, что были построены широкие интервалы. В этих условиях совершенно непонятно, какому из методов отдать предпочтение. Для получения дополнительной информации об интервалах можно рассчитать их ширину в единицах следующим образом:</p>
<pre class="decode" title="Ширина интервалов">
mean(ourModel1$upper-ourModel1$lower)
mean(ourModel2$upper-ourModel2$lower)
mean(ourModel3$upper-ourModel3$lower)
</pre>
<p>Получим:</p>
<pre>950.4171
955.0831
850.614</pre>
<p>В этом конкретном примере непараметрические интервалы оказались самыми узкими, что в сочетании с покрытием всех фактических значений в тестовой выборке, указывает на то, что это наилучший метод построения интервалов в данном случае. Это, впрочем, не означает, что всегда и везде надо строить непараметрические интервалы. Выбор метода должен быть продиктован тем, какие именно предпосылки нарушены в модели. Если бы мы не знали значения из тестовой выборки, мы могли бы провести элементарный анализ остатков. Например:</p>
<pre class="decode" title="Анализ остатков">
forecast::tsdisplay(ourModel1$residuals)

hist(ourModel1$residuals)

qqnorm(ourModel3$residuals)
qqline(ourModel3$residuals)</pre>
<div id="attachment_1270" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/05/N1241-residuals-plot.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1270" src="/wp-content/uploads/2017/05/N1241-residuals-plot-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1270" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-plot-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-plot-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-plot-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-plot.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1270" class="wp-caption-text">Линейный график и коррелограмма по остаткам модели ETS(A,Ad,N)</p></div>
<div id="attachment_1267" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/05/N1241-residuals-histogram.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1267" src="/wp-content/uploads/2017/05/N1241-residuals-histogram-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1267" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-histogram-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-histogram-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-histogram-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-histogram.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1267" class="wp-caption-text">Гистограмма остатков модели ETS(A,Ad,N)</p></div>
<div id="attachment_1268" style="width: 310px" class="wp-caption alignnone"><a href="/wp-content/uploads/2017/05/N1241-residuals-qqplot.png"><img loading="lazy" decoding="async" aria-describedby="caption-attachment-1268" src="/wp-content/uploads/2017/05/N1241-residuals-qqplot-300x175.png" alt="" width="300" height="175" class="size-medium wp-image-1268" srcset="https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-qqplot-300x175.png&amp;nocache=1 300w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-qqplot-768x448.png&amp;nocache=1 768w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-qqplot-1024x597.png&amp;nocache=1 1024w, https://openforecast.org/wp-content/webpc-passthru.php?src=https://openforecast.org/wp-content/uploads/2017/05/N1241-residuals-qqplot.png&amp;nocache=1 1200w" sizes="auto, (max-width: 300px) 100vw, 300px" /></a><p id="caption-attachment-1268" class="wp-caption-text">Графи квантиль-квантиль по остаткам модели ETS(A,Ad,N)</p></div>
<p>Первый график показывает, как остатки меняются во времени и что собой представляют коррелограммы остатков. Как видим, никакой очевидной автокорреляции и гетероскедастичности в остатках не наблюдается. Это означает, что мы можем предположить, что эти предпосылки не наршаются. То есть нет никакой надобности в полупараметрических интервалах. Однако второй и третий графики показывают, что остатки не распределены нормально (как предполагает модель ETS(A,Ad,N)). А значит параметрические интервалы могут быт неточными. Это мотивирует построение непараметрических интервалов в случае использования модели ETS(A,Ad,N) по ряду N1241.</p>
<p>На сегодня всё. До новых встреч!</p>
<p>Сообщение <a href="https://openforecast.org/ru/2017/06/11/prediction-intervals/">Пакет «smooth» для R. Общие параметры. Часть 1. Прогнозные интервалы</a> появились сначала на <a href="https://openforecast.org/ru">Open Forecasting</a>.</p>
]]></content:encoded>
					
					<wfw:commentRss>https://openforecast.org/ru/2017/06/11/prediction-intervals/feed/</wfw:commentRss>
			<slash:comments>2</slash:comments>
		
		
			</item>
	</channel>
</rss>
