В прогнозировании как в полноценной научной дисциплине есть ряд принципов, следуя которым можно получить значимые результаты как в научной области, так и на практике. Однако прикладное прогнозирование немного отличается от «научного», потому что основная задача на практике — дать прогноз, а в научных исследованиях — выбрать модель, дающую наиболее точный прогноз в некоторых условиях и объяснить, почему так происходит. Конечно, одно без другого существовать не может, и обе стороны надо знать всем прогнозистам, но разница в подходах, как говориться, налицо.
О принципах практического прогнозирования можно узнать на вот этой странице.
Научные исследования
В этой статье я попытался выделить базовые принципы научного исследования, но на самом деле это не совсем правильно — те принципы, которые мы с вами рассмотрим ниже, очень часто применимы и на практике. Просто для научных исследований они являются первоочередными, в то время как практическое прогнозирование может без них так или иначе обходиться.
Итак.
Первый принцип. Исследование не имеет смысла без практической проверки. Если вы разработали новую крутейшую модель или вывели какой-то продвинутый, статистически обоснованный метод оценки моделей, но не проверили его на практических данных, то ценность вашего исследования приближается к нулю. Любые статистические обоснования и теоретические выводы основываются на каких-то предпосылках и предположениях, и когда дело доходит до практики, они могут столкнуться с грубой реальностью, которой наплевать на статистику и теорию. Одновременно с этим, если выбранная вами модель хорошо работает у соседа, то это ещё не означает, что она будет давать точные прогнозы и в вашем случае. Доверяй, но проверяй!
Второй принцип. Любую модель нужно проверять на тестовой выборке. Вы можете долго рассуждать о статистической значимости модели в целом и отдельных её коэффициентов, интерпретировать полученные числа и восхищаться точностью описания ряда, отсутствию эндогенности, гетероскедастичности, автокорреляции и пр. Но всё это не имеет ни малейшего значения, если модель работает только на обучающей выборке, и вы не удосужились проверить её на тестовой. Даже если вас интересуют только значения коэффициентов модели, прежде чем делать какие-либо выводы, попробуйте дать прогноз по модели и сравнить его с фактическими значениями, не использовавшимися при оценивании. Если модель не способна адекватно прогнозировать исследуемый показатель, то о какой объясняющей способности и о каких интерпретациях коэффициентов вообще может идти речь? А уж о способности давать адекватные точечные прогнозы моделей, непроверенных на тестовых выборках, вообще можно не говорить.
Стоит признать, что в некоторых случаях провести такую проверку не представляется возможным. В этих случаях следует обратиться к наиболее робастным прогнозным моделям, зарекомендовавшим себя как на практике, так и в научной литературе (например, модели Theta и Экспоненциальное сглаживание с демфпированным аддитивным трендом, о которых мы ещё, скорее всего, как-нибудь поговорим). После того, как получен прогноз по выбранной модели, его стоит откорректировать на основе экспертного суждения. Но таких ситуаций с выбором модели без проверки лучше стараться избегать.
Третий принцип заключается в том, что при проведении исследования следует построить несколько конкурирующих моделей и сравнить их прогностическую способность [см. Armstrong & Fildes (2006) — Making progress in forecasting]. Альтернативная формулировка этого принципа звучит так: «сформулировать ряд конкурирующих гипотез и проверить их на практике». По сути это означает, что на одних и тех же данных, в одних и тех же условиях нужно построить несколько моделей, оценить и сравнить точность их прогнозов. Для научных исследований это необходимо, так как позволяет другим исследователям понять, как соотносится между собой точность разных моделей, и является ли разница в точности существенной. Если в какой-нибудь научной статье рассмотрена только одна модель, то понять её истинную ценность невозможно — «один в поле не воин». Для практической деятельности такое сравнение так же необходимо, так как позволяет понять, какая из моделей работает лучше в вашем случае. Помимо этого, такое сравнение позволяет понять, надо ли заморачиваться со сложными непонятными моделями. Возможно, строить сложную модель для повышения точности прогнозов на 0,01% по сравнению с простой не имеет смысла, но как об этом узнать, если, вы, например, использовали только сложную?
Четвёртый принцип можно описать фразой Пола Гудвина: «Если название статьи содержит больше слов, чем рядов данных, на которых проверяется модель, то такую статью можно игнорировать». Этот принцип применим не только к теоретическим, но и к практическим исследованиям. Фактически он просто означает, что одного ряда данных для корректных выводов недостаточно. Даже двух недостаточно. Даже десяти. И двадцати, скорее всего, тоже будет мало. На таком количестве рядов совершенно непонятно, случаен ли полученный результат или закономерен. Если вы действительно хотите понять, какая из моделей даёт более точные прогнозы и в каких условиях, то вам нужна большая база рядов данных. Большая — это хотя бы рядов 50. Конечно, этого всё равно мало, но на этих 50 рядах уже можно хотя бы выявить какие-то общие закономерности. Если в вашем распоряжении есть 500 рядов, то вы можете не только выявить закономерности, но и провести группировку по какому-нибудь признаку, и выяснить, какая из моделей даёт более точные прогнозы в каждой из групп. Чем больше рядов, тем больше возможностей и тем более значимый вы получите результат.
Может возникнуть закономерный вопрос: откуда взять ряды данных? У практикующих прогнозистов в распоряжении могут быть данные о продажах продукции в разных магазинах города или по разным типам продуктов (в зависимости от рода деятельности). Конечно же, если речь идёт о запуске нового продукта или услуги, то вопрос наличия 50 временных рядов достаточной длины не стоит в принципе. В этом случае нужно обращаться к экспертным методам прогнозирования. Но о них в другое время, в другой статье. У теоретиков в распоряжении есть такие базы данных, как M, M3, база временных рядов Роба Хайндмана, база туристических рядов №1 и №2, и многие другие.
Пятый принцип, как показывает практика, очевиден не для всех. Рассматриваемые временные ряды должны быть достаточной длины. В случае с экстраполяционными методами можно выявить следующие закономерности. Если в нашем распоряжении годовые данные по продаже сидра, а нас интересует прогноз на шесть лет вперёд, то нам нужны данные по продажам хотя бы за 18 лет. Если же мы говорим о сезонных продажах, то для прогнозирования на год вперёд, надо иметь данные хотя бы за 4 года (то есть 48 наблюдений в случае с месячными данными и 16 в случае с квартальными). Все эти числа указаны не просто так. Вообще если мы хотим дать прогноз на h наблюдений вперёд, то точность этих прогнозов нужно проверить хотя бы по h наблюдениям, поэтому это число уже нужно учесть (6, 12 и 4 в наших примерах в этом абзаце). Помимо этого в случае с несезонными данными модель нужно построить хотя бы по 2h наблюдениям (12 в нашем примере с годовыми рядами), а в случае с сезонными данными для построения самой простой сезонной модели в распоряжении исследователя должно быть минимум 3 сезона (36 для месячных и 12 для квартальных рядов соответственно). Безусловно, и по двум сезонам, и по одному можно построить некоторые простейшие модели, но ожидать от них точных прогнозов не стоит. И опять же, если в вашем распоряжении слишком мало наблюдений, вы сможете построить прогноз, используя простейшие модели, но эти прогнозы, скорее всего, нужно будет корректировать вручную.
Что касается регрессионных моделей, то правило большого пальца правой ноги гласит о том, что на один коэффициент должно приходиться хотя бы 10 наблюдений. Вызвано это обычно статистическими соображениями — по меньшему числу наблюдений тяжело проводить адекватные статистические тесты и проверять гипотезы. Поэтому, например, модель вида: \( y_t = a_0 + a_1 x_{1,t} + a_2 x_{2,t} \) стоит строить, когда в вашем распоряжении имеется хотя бы 30 наблюдений. Это правило не жёсткое, но является некоторым настоятельным советом. Стоит, правда, иметь в виду, что в эти 10 наблюдений не включается количество наблюдений для тестовой выборки. Оно, конечно же, должно соответствовать горизонту прогнозированию.
Шестой принцип не очевиден, пока с ним не столкнёшься сам или не прочитаешь о нём в литературе. При оценке точности прогнозов нужно использовать несколько разных показателей. Нельзя делать выводы, например, лишь на основе расчёта средней относительной ошибки аппроксимации (MAPE — «Mean Absolute Percentage Error»), так как её значение сильно зависит от масштаба данных. На самом деле практически любой коэффициент обладает как рядом преимуществ, так и некоторыми недостатками, поэтому использование только одного из них может привести к искажению результатов, что в свою очередь может привести к выбору недостаточно точной модели. Подробней о коэффициентах мы как-нибудь поговорим в другой раз.
Если для научных исследований все перечисленные выше принципы являются жизненно необходимыми, то на практике не все из них удаётся соблюдать. Как бы то ни было, прогнозисту нужно осознавать, какие из них не выполняются, и к чему это может привести.
Помимо этих шести принципов существует ещё и ряд научных результатов, полученных в ходе соревнований M-Competition:
- Сложные и статистически обоснованные модели не обязательно оказываются точнее простых моделей. Например, нейронные сети пока не способны превзойти те же методы экспоненциального сглаживания или модель Theta в точности прогнозирования, а статистически обоснованная модель ARIMA на практике так же не способна превзойти ту же самую статистически не обоснованную модель Theta. Это, впрочем, не говорит о том, что эти модели не применимы вообще, просто не стоит слепо доверяться им только потому что они выглядят сложно.
- Комбинирование моделей или комбинирование прогнозов разных моделей в среднем повышает точность прогнозов. Данный эффект объясняется достаточно просто. Одни модели могут дать завышенный прогноз, другие — заниженный. В результате комбинирования таких прогнозов мы получим менее смещённый итоговый прогноз. В случае, если все модели имеют систематическое отклонение от фактического значения в одну сторону (например, все завышают), итоговый прогноз окажется тоже завышенным, но усреднённым и менее экстремальным, чем при использовании только одной модели.
- С ростом горизонта прогнозирования точность прогнозов снижается. Этот эффект многим очевиден и без различных научных исследований. Действительно, с ростом горизонта прогнозирования растёт неопределённость. Так мы можем более-менее точно сказать, каким будет стоимость молока завтра, но при прогнозировании уже на месяц вперёд появляется слишком много неучтённых факторов (например, российское эмбарго на европейскую продукцию), которые сильно влияют на итоговое значение цены.
Это всё основные принципы прогнозирования, которые стоит иметь в виду при проведении научного исследования, однако ими не стоит пренебрегать и в том случае, когда вы занимаетесь практическим прогнозированием. Пренебрежение опасно.