Давайте немного отстранимся от прогнозирования, всяких субъектов, объектов, видов и прочего. Взглянем на мир вокруг нас. Предупреждаю, сейчас будет немного страшно, но давайте попробуем себя как-нибудь пересилить!
Вот вы когда-нибудь замечали, что мы окружены системами? Если не замечали, то у меня для вас есть новость. Мы на самом деле все живём в системах! Например, мы едем на встречу с другом, спускаемся в метро, сложную транспортную систему, состоящую из вагонов, машинистов, рельс, туннелей, электричества и тому подобного. Мы заходим в кафе, которое представляет собой работающую систему, состоящую из помещения, мебели, персонала, кофейных машин, сырья, доставки, продвижения и так далее. Мы общаемся с другом, человеком, который, будучи одной из самых сложных систем, состоит из мозга, сердце, печёнки, селезёнки, туловища и кучи ещё всяких других органов и деталек.
Системы вокруг нас. Системы в нас! Мы и есть системы!
Термин «система» обычно определяется как совокупность элементов, объединённых определённым образом в единое целое. Без этого объединения, без этого «определённого образа» система не заработает. Так, руки, ноги, туловище, глаза и другие органы — это разобранное чудище Франкенштейна. Да даже сшитые вместе, они дают нам не систему (человека), а просто труп, над которым надругался учёный.
Тот факт, что нас окружают системы, и мы имеем дело с ними каждый день, подразумевает, что в прогнозировании нам стоит следовать принципу системности: рассматривать объект исследования в целом, а не как изолированные друг от друга элементы, рассматривать объект исследования не отстранённо и изолировано (сферически в вакууме), а с учётом той внешней среды, в которой он находится.
Тот факт, что каждая система уникальна, подразумевает, что в прогнозировании нам следует помнить о принципе природной специфичности: при прогнозировании нужно учитывать особенности исследуемого объекта, делающие его отличным от других объектов. У многих объектов есть много общего, но всегда есть что-то, что отличает их от других, и это что-то может оказаться важным для исследования.
А тот факт, что любая система по сути своей сложна и тяжело изучаема, указывает на то, что в прогнозировании нужно следовать принципу эффективности затрат: затрачиваемые на исследование и получение прогноза ресурсы (денежные, временные) должны соответствовать поставленной цели. Для того, чтобы оценить величину пассажиропотока в метрополитене, не обязательно изучать виды вагонов.
Очевидно, что познать системы как таковые просто так могут только истинно просветлённые личности, типа Будды Шакьямуни, Иисуса Христа или Нео. Но как быть нам, простым смертным, не способным глядеть в корень?
Для нас любое изучение мира сводится к построению моделей. Как вы, наверно, уже знаете, модель — это условный образ изучаемого объекта или процесса, сохраняющий в себе только существенные характеристики оригинала, которые позволяют исследователю выявить интересующие его закономерности. Модель — это всегда упрощение, а так же абстрагирование от каких-нибудь несущественных деталей.
Если мы следим за поведением аборигена из племени Туки-туки, и делаем записи о нём, то мы таким образом создаём текстовую или словесную модель. Это один из самых простых типов моделей. Даже, если мы опишем поведение аборигена из племени Туки-туки вслух, это уже будет упрощение, это будет только модель.
Более сложно (не только физически) — это зарисовать поведение аборигена из племени Туки-туки. Созданная таким образом графическая модель будет, возможно, более точной, но при этом и потребует больше времени и сил.
Только люди с самым изощрённым умом могут вздумать описать поведение аборигена из племени Туки-туки, используя язык математики, формализовав его движения через уравнения, предварительно замерив основные показатели. Это будет ни что иное, как математическая модель, один из самых сложных и потенциально очень точных видов моделей.
Ещё сложнее будет одеться аборигеном из племени Туки-туки и изобразить его поведение, пытаясь скопировать какие-то основные характерные черты. Такая модель называется аналоговой и, конечно же, является ещё более сложной и затратной, но всё так же является лишь упрощением.
В бизнесе, экономике и менеджменте обычно используются первые три вида моделей. С аналоговой всё сложно, так как обычно исследуемый объект связан непосредственно со взаимоотношениями различных систем, смоделировать которые бывает если не невозможно, то крайне затруднительно.
В заключение хотелось бы обратить ваше внимание. Модель — это всегда упрощение. Модель никогда не является идентичной объекту исследования. Поэтому к любым выводам, полученным по любой модели, нужно относиться осторожно, чтобы не получилось как в анекдоте про Карузо.
Анекдот про Карузо
— Все мне тут говорят: «Карузо, Карузо!» Слышал я этого вашего Карузо! Ни слуха, ни голоса, да ещё и картавит!
— А где это ты его слышал?
— А! Вчера друг напел.
Математические модели и методы
Исследование операций выделяет два типа математических моделей:
- Детерминированные,
- Стохастические.
К первым относятся те модели, в которых нет случайности. Такие модели могут встречаться, например, в оптимизационных задачах.
Ко вторым относятся модели, в которых в каком-нибудь виде присутствует неопределённость. Она может выражаться в форме случайной ошибки либо каких-нибудь случайных параметров. Такие модели нашли значительно большее применение и встречаются во многих дисциплинах. Например, в теории очередей, в симуляциях, в теории игр, в прогнозировании.
Под «методом» в зарубежной литературе обычно понимают математический инструмент, который позволяет получить точечные оценки. По большому счёту, это есть ни что иное как «детерминированная математическая модель». Имея метод, нельзя изучить распределение случайной величины, построить прогнозный интервал, провести статистические тесты, что, впрочем, в некоторых случаях может быть и не так важно.
При этом под словом «модель» в той же самой литературе обычно подразумевается второй тип, стохастическая. Здесь и далее мы будем придерживаться такого же определения.
В общем и достаточно грубом виде стохастическая модель может быть записана так:
\begin{equation} \label{eq:model}
y_t = \hat{y}_t + e_t
\end{equation}
где \( y_t \) — фактическое значение изучаемой переменной, \( \hat{y}_t \) — расчётное значение, \( e_t \) — случайная ошибка, \( t \) — номер наблюдения. Значение \( \hat{y}_t \) фактически и является тем самым «прогнозным методом».
В этом месте хотелось бы сделать ремарку. Обычно при моделировании выделяют два типа ошибок:
- \( \epsilon_t \) — некоторая идеальная ошибка, в которой содержатся все мелкие, случайные возмущения. Предполагается что эта ошибка неразрывно связана с истинной моделью и не может быть уменьшена либо описана каким бы то ни было способом.
- \( e_t \) — выборочная ошибка. То есть ошибка, полученная из выборки, при построении модели. Она обычно отличается от \( \epsilon_t \), так как для получения той самой идеальной ошибки нужно, чтобы выбранная модель полностью соответствовала истинной. Но это в принципе невозможно, так как для этого надо обладать полной информацией о том, какие переменные должны быть включены в модель и в какой форме.
Итак, у любой стохастической модели есть прогнозный метод, но не у каждого прогнозного метода есть стохастическая модель.
Например, стохастическая модель «случайного блуждания» имеет следующий вид:
\begin{equation} \label{eq:randomwalk}
y_t = y_{t-1} + e_t
\end{equation}
У неё есть прогнозный метод — «Naive»:
\begin{equation} \label{eq:naive}
\hat{y}_t = y_{t-1}
\end{equation}
Очевидно, что если \eqref{eq:naive} подставить в \eqref{eq:randomwalk}, то мы придём к формуле \eqref{eq:model}.
Заметим, что отсутствие стохастической модели отнюдь не говорит о том, что метод не применим на практике. Например, методы экспоненциального сглаживания долгое время не имели никакой стохастической модели, поэтому многими статистиками не воспринимались всерьёз, несмотря на их эффективность и превосходство над другими экстраполяционными методами на практике. Другой пример — метод «Theta» показал себя как достаточно точный метод прогнозирования, но до 2016 года не имел стохастической модели.
Со стохастической моделью так же тесно связан термин «истинной модели». В литературе есть много разных определений того, что такое истинная модель, но практически все они сводятся к идеи о том, что это модель, с помощью которой генерируются полученные данные. Грубо говоря, подразумевается, что месячные продажи валенок могут генерироваться с помощью некоторой простой математической модели вида \( y_t = a + b x_t + \epsilon_t \). Очевидно, что это просто абстрактная идея, и никакой «генерирующей» модели в этом виде не существует. Это обычно понимают и сами учёные, и используют идею истинной модели просто для вывода различных статистических характеристик.
Меня же этот знак «равно» между истиной и генерирующей моделями раздражает, поэтому я дошёл до несколько нестандартного определения. В моём представлении процесс, генерирующий данные (Data Generating Process, DGP) — это процесс, происходящий внутри лиц, принимающих решения. Например, при покупке валенок, в голове человека происходит автоматически учёт различных факторов, на основе которых принимается решение, сколько покупать и покупать ли вообще. Где-то там, глубоко, в его голове, и находится эта самая генерирующая модель. Она теоретически может быть описана математической функцией, которая, скорее всего, будет очень сложной. Узнать её в реальности нет никакой возможности. Но, с другой стороны, нам это и ненужно, так как мы обычно работаем с агрегированными данными, а не с данными о продажах каждому конкретному человеку. Агрегированные модели по группам людей, а затем — по времени, дают очень сложную абстрактную математическую модель, которую в реальности описать практически невозможно. Однако её можно аппроксимировать более простыми математическими функциями (типа линейных, логарифмических или каких-нибудь синусоид), которые на данном уровне агрегирования как раз и образуют истинную модель. Обратите внимание, что на разных уровнях агрегирования (по времени и пространству), могут получаться разные истинные модели. Например, по дневным данным о продажах валенок может получиться одно, а по месячным — что-то совершенно другое.
Итак, я считаю, что истинная модель — это такая компактная математическая модель, которая содержит в себе все необходимые переменные в форме, гарантирующей наилучшее описание и прогнозирование процесса.
Это определение позволяет использовать всё те же статистические методы, что и с более наивным определением «истинной модели», однако разделение на генерирующую и истинную позволяет поставить всё на свои места. Имея истинную модель (как в моём определении, так и в неправильном), можно по имеющимся данным выбирать наиболее подходящую, экономную (в смысле числа параметров) математическую модель и использовать статистические методы в прогнозировании.
Ну, и в заключение цитата за авторством Джорджа Бокса:
All models are wrong, but some are useful.
(Все модели неверны, но некоторые — полезны)