Любая система содержит очень много различной информации. Конечно же, не вся она нам нужна, но ту, которая нам нужна, надо как-то измерить и преобразовать. Для этого информации нужно предать какую-нибудь форму, то есть перевести её в данные. Например, общую информацию о том, что потребителям нравится наша продукция, и они согласны покупать её в большем количестве, можно формализовать, проведя исследования и дав оценку удовлетворённости покупателей. В результате этого мы получим данные, с которыми можно уже работать и на основе которых можно принимать решение.
Во время такого преобразования исследователь явно или неявно выбирает шкалу, в которой он будет измерять данные. Существует много различных классификаций шкал, и даже есть специальный раздел математики, изучающий шкалы и операции с ними — теория измерений. Не вдаваясь в детали это дисциплины, рассмотрим то, что может нам пригодиться в прогнозировании.
Принято считать, что любая шкала может обладать следующими характеристиками:
- описание,
- порядок,
- расстояние,
- естественная точка отсчёта,
- естественная единица измерения.
Последняя характеристика обычно опускается, так как для целей исследования особо полезной информации не несёт. С точки зрения прогнозирования выделение следующих четырёх видов шкал (упорядоченных по уровню) на основе первых четырёх характеристик вполне достаточно для использования по максимуму различных математических и не математических методов:
1. Номинальная шкала
Шкала, в которой есть только характеристика «описание». В ней нет естественного упорядочения, нет расстояния между элементами и тем более нет естественной точки отсчёта. С данными, измеренными в номинальной шкале возможна только одна операция — сравнение в форме «равно» или «неравно». То есть обладает ли объект указанным свойством или нет.
Пример (шутливый). Туристы бывают:
- белые,
- китайцы,
- русские,
- женщины,
- другие.
Из-за ограниченности номинальной шкалы, практически всё, что можно сделать с данными, измеренными в ней — это посмотреть на количество объектов, имеющих указанные признаки. Например, мы можем понять, сколько в нашем распоряжении оказалось китайских туристов, какой процент от всех туристов они составляют. Если в нашем распоряжении несколько величин, измеренных в номинальной шкале, мы можем, например, использовать коэффициент сопряжённости, для того, чтобы оценить, есть ли связь в выборе признака в одной шкале с выбором признака в другой.
Для целей анализа номинальную шкалу бывает удобно трансформировать в бинарную, в которой «1» соответствует наличию, а «0» — отсутствию свойства. В случае с нашими туристами мы получим соответственно 5 новых переменных, измеренных в такой бинарной шкале.
2. Порядковая (ранговая) шкала
Это уже более сложная шкала, в ней появляется вторая характеристика — «порядок». Данные, измеренные в этой шкале можно сравнить и упорядочить, однако сказать насколько (и уж тем более во сколько раз) одна величина больше другой нельзя. То есть к операциям с данными, в этой шкале добавляется «больше» и «меньше».
Пример. Туристы бывают:
- грустные,
- нейтральные,
- весёлые.
В этом примере, как видим, туристы упорядочены по настроению, но при этом нет возможности сказать, насколько один может быть веселее другого. К порядковой шкале будет относиться даже шкала, которая на первый взгляд не выглядит как порядковая.
Пример. Туристы бывают:
- от 10 до 15 килограмм,
- от 15 до 20 килограмм,
- от 20 до 100 килограмм,
- больше 100 килограмм.
Измерить расстояние между элементами в такой шкале не представляется возможным, поэтому она порядковая.
Точно так же оценки за экзамен измеряются в порядковой шкале: разница между 5 и 3 формально равна двум, но при этом не имеет смысла, так как в этой шкале двойка — это просто ещё одна оценка. Если по курсу вначале получить 3,а потом — 2, то пятёрки не получится.
В порядковой шкале можно уже использовать некоторые базовые статистические инструменты. Например, можно оценить моду, для того, чтобы понять, туристы какого веса чаще встречаются в выборке. Можно так же рассчитать ранговый коэффициент корреляции (Спирмена либо Кендалла), который может показать, есть ли статистическая линейная связь между весом туристов и их настроением. Расчёт средней величины (а так же медианы и стандартного отклонения) в порядковой шкале возможен, но в этом случае получаемое значение будет просто добавлять в нашу шкалу новые значения, но не более того. Например, если в шкале оценок за экзамены появилась «4.5» (как средняя между «4» и «5»), то это значение просто расширяет нашу шкалу, которая теперь будет содержать: «2», «3», «4», «4.5» и «5». Расстояние между «4» и «4.5», а так же «4.5» и «5» всё так же невозможно адекватно измерить.
3. Интервальная шкала
В интервальной шкале добавляется ещё одна характеристика — расстояние, но в ней всё так же отсутствует естественная точка отсчёта. Приемлемые операции в этой шкале (плюс к тем, которые уже были) — сложение и вычитание. Однако операции деления и умножения в этой шкале бессмысленны.
Пример. Температура туриста.
Если температура одного туриста — 36.6ºC, а другого — 18.3ºC, то мы можем сказать, что второй турист холоднее первого на 18.3ºC, но сказать, что первый турист горячее второго в два раза нельзя — это не имеет смысла. А всё потому что 0ºC — это не естественная точка отсчёта, а искусственная, привязанная к температуре замерзания воды. Если в качестве точки отсчёта в этой шкале взять, например, абсолютный ноль, то этот бессмысленный эффект «первый в два раза горячее второго» пропадёт.
В интервальной шкале имеют смысл и средняя величина, и медиана, и стандартное отклонение, и квантили распределения. Если очень хочется, то можно рассчитать и коэффициент корреляции Пирсона, который покажет, есть ли линейная связь между показателями.
4. Абсолютная шкала.
Это последний тип шкалы, и он имеет все рассмотренные нами характеристики. Наличие естественной точки отсчёта означает, что когда показатель принимает значение «0», то это говорит о том, что исследуемое свойство у объекта просто отсутствует. В этой шкале возможны все математические операции.
Пример. Количество туристов в комнате.
Думаю, комментарии к этому примеру излишни.
У шкал есть одно удобное свойство: любые данные, измеренные в шкале более высокого уровня, можно легко преобразовать в данные, измеренные в шкале более низкого уровня.
Например, количество туристов в комнате можно перевести в интервальную шкалу, если это количество центрировать относительно какой-нибудь величины (то есть фактически избавиться от естественной точки отсчёта). В таком случае положительное число будет означать превышение установленного лимита, а отрицательные — занижение. Ноль в таком случае будет соответствовать искусственной точке, в которой количество соответствует выбранному нами эталону.
Если провести ещё одну свёртку данных и избавиться от расстояний между значениями, то можно получить порядковую шкалу, например, следующего вида:
- менее 5 туристов,
- от 5 до 10 туристов,
- более 10 туристов.
Продолжая упрощения, избавляясь от порядка, можно предложить простейшую номинальную шкалу:
- 5 туристов,
- не 5 туристов.
Очевидно, что обратное преобразование невозможно. Если мы изначально собирали данные в номинальной шкале, то получить из них данные, измеренные в шкале более высокого уровня, в принципе невозможно.
И последнее. В случае, если оказывается нужно оценить связь между показателями, измеренными в разных шкалах, нужно использовать коэффициенты, предназначенные для шкал более низкого уровня. Например, для определения связи настроения туриста с его температурой стоит обратиться к ранговому коэффициенту корреляции.