Гнатюк В.И. Закон оптимального построения техноценозов, 2005

Гнатюк В.И. Закон оптимального построения техноценозов, 2005 – главная страница

Адрес монографии в сети – http://gnatukvi.narod.ru/ind.html

5.4.2. GZ-анализ рангового параметрического

распределения по электропотреблению

Подготовка данных. Построение системного доверительного интервала. Построение гауссового доверительного интервала. Расчет коэффициента когерентности. Юстировка коэффициента когерентности. Анализ результатов.

На этапе статистического анализа и построения эмпирической модели процесса ресурсопотребления осуществляется полномасштабная обработка данных, которая включает взаимосвязанные процедуры рангового анализа. Это позволяет упорядочивать информацию, выявлять в динамике и наглядно представлять объекты с аномальным ресурсопотреблением, эффективно осуществлять прогнозирование и нормирование ресурсопотребления отдельными объектами и техноценозом в целом. С целью повышения точности расчетов стандартные процедуры рангового анализа дополняются соответствующими тонкими процедурами: верификацией базы данных по ресурсопотреблению, а также дифлекс-, GZ-, ASR-анализом рангового параметрического распределения (см. п. 4.1). В процедуре прогнозирования существенную сложность составляет операция выбора G- или Z-методологии [20]. Предлагается данный выбор осуществлять на основе предварительного тонкого GZ-анализа параметрического распределения (пп. 4.1, 4.4), а в качестве критерия выбора метода рассматривать определенное соотношение объемов системного и гауссового ресурсов кластеров техноценоза, которое в пределе сводится к соотношению системного и гауссового доверительных интервалов объектов (п. 4.1).

Под системным доверительным интервалом рангового параметрического распределения техноценоза понимается совокупность верхних и нижних доверительных границ, каждая из которых получается в результате статистической обработки выборки значений параметров, соответствующих данному рангу на протяжении определенного количества временных интервалов (независимо от объектов, которые «проходят» через ранг в процессе функционирования). Системный интервал характеризует разброс параметров техноценоза, при котором его функционирование можно считать нормальным. Фактически этот интервал отражает требования или ограничения, которые система выдвигает объектам, чтобы обеспечить свое устойчивое функционирование. Если эмпирическое значение параметра объекта выходит за пределы системного интервала, то это означает, что объект не подчиняется системным требованиям и проявляет индивидуальность. Сама же величина отклонения может рассматриваться как мера индивидуальности данного объекта. Ширина системного доверительного интервала определяется предысторией развития техноценоза и если она невелика, то это свидетельствует о том, что техноценоз развивается стабильно и сбалансировано, все изменения в нем происходят плавно. Напротив, широкий интервал свидетельствует о резких структурных изменениях.

Под гауссовым доверительным интервалом рангового параметрического распределения техноценоза понимается совокупность верхних и нижних доверительных границ, каждая из которых получается в результате статистической обработки выборки значений параметров, соответствующих данному объекту на протяжении определенного количества временных интервалов (независимо от рангов, которые он принимает в процессе функционирования). Гауссовый доверительный интервал характеризует разброс параметров объекта, при которых его функционирование можно считать нормальным. Ширина данного интервала задается предысторией развития объекта, и чем ширина меньше, тем стабильней его функционирование. В случае выхода эмпирического значения параметра объекта за границы гауссового интервала, можно с уверенность говорить, что на самом объекте произошли резкие изменения (произведена модернизация оборудования, внедрены новые технологии) либо система предъявила новые требования, для выполнения которых объект вынужден резко изменить режим функционирования.

Таким образом, для каждого объекта можно получить отношение системного и гауссового интервалов, которое называется коэффициентом когерентности и показывает степень согласованности поведения объекта по отношению к техноценозу. Если коэффициент когерентности близок к единице, то можно говорить о согласованном поведении. Кроме того, коэффициент когерентности является индикатором для выбора наиболее эффективного метода прогнозирования для рассматриваемого объекта. При сравнительно больших значениях коэффициента лучше работают G-методы, в противном случае – Z-методы [20].

Используем GZ-анализ для прогнозирования электропотребления объектов техноценоза. Следует сразу уточнить, что проблема выбора метода актуальна только при прогнозировании электропотребления отдельных объектов. В процессе прогнозирования электропотребления техноценоза в целом всегда лучше работают Z-методы [20].

После сбора информации о годовом электропотреблении (в кВт·ч) создается электронная база данных. Рекомендуется базу данных формировать в виде файла Microsoft Excel, в котором должны содержаться только числовые значения, при этом столбцы должны соответствовать объектам техноценоза, а строки – годам. Перед началом обработки данные необходимо подвергнуть верификации (см. пп. 5.1.2, 5.4.1) и сохранить под именем «data_d.xls» в директории «c:\mathcad_dat», которая должна быть заблаговременно создана в корневом каталоге диска «c:\». Далее, уже программными средствами, осуществляется импорт данных из файла «data_d.xls» в тело mathcad-программы. В настоящем примере используются десятилетние данные по электропотреблению реально существующего в Калининградской области техноценоза, состоящего из рассредоточенных по всей территории региона 69 объектов (подробно – см. п. 4.5). Кроме того, в настоящей программе будет осуществлено сравнение полученных коэффициентов когерентности с кодами лучших методов прогнозирования, ранее объединенных в так называемую GZ-матрицу (п. 4.4). Для этого в директории «c:\mathcad_dat» должен быть размещен файл с именем «GZ_matrix.xls» (имеется среди файлов примера – см. по адресу: http://gnatukvi.narod.ru/zip_files/task_mcd.zip).

Подготовка данных

Зададим начало отсчета и импортируем данные по электропотреблению из внешнего файла в тело программы [20].


V

Определим глубину базы данных по электропотреблению, используемой для дальнейшей обработки. Здесь необходимо вручную задать число, равное глубине базы данных в годах (в данном случае q = 9).

Сформируем матрицу данных, а также создадим табулированное ранговое параметрическое распределение и вектор рангов.

Построение системного доверительного интервала

Расчет системного доверительного интервала техноценоза осуществляется на основе интерквартильного размаха применительно к матрице ранговых параметрических распределений [23]. В данной программе используется размах, соответствующий 95%-му доверительному интервалу. Подпрограмма Qvartil предназначена для нахождения значения случайной величины из заданной выборки по значению функции распределения. Ее аргументы: x – выборка случайной величины, p – значение функции распределения.

Подпрограмма RE предназначена для нахождения нижних и верхних границ доверительного интервала. Входным аргументом здесь является матрица ранговых параметрических распределений. На выходе получается матрица, первый столбец которой есть вектор верхних границ, второй – вектор нижних границ системного доверительного интервала техноценоза.

Получаем верхнюю и нижнюю границы системного доверительного интервала, а затем визуализируем результаты расчетов (рис. 5.53).

Рис. 5.53.

Системный доверительный интервал:

ордината – электропотребление, кВт·ч;

абсцисса – ранг объекта;

точки – эмпирические значения;

ломаные линии – соответственно нижняя

и верхняя границы интервала

Построение гауссового доверительного интервала

Расчет гауссового доверительного интервала осуществляется также на основе интерквартильного размаха применительно к матрице ранговых параметрических распределений [23]. Проделаем описанные здесь выше операции только для значений электропотребления не рангов, а объектов. По вектору значений электропотребления каждого объекта находим соответствующее медианное значение.

При помощи подпрограммы RE на основе интерквартильного размаха [23] определим доверительный интервал для каждого объекта, а затем отсортируем его по медианным значениям, которые ранжируются по убыванию. После этого визуализируем результаты расчетов (рис. 5.54).

Рис. 5.54.

Гауссовый доверительный интервал:

ордината – электропотребление, кВт·ч;

абсцисса – ранг объекта;

точки – эмпирические медианные значения;

ломаные линии – соответственно нижняя

и верхняя границы интервала

Рассчитаем ширину системного доверительного интервала для каждого ранга параметрического распределения.

Далее рассчитаем ширину гауссового доверительного интервала для каждого объекта техноценоза.

Расчет коэффициента когерентности

Вычислим коэффициент когерентности, наращивая исследуемую глубину базы по электропотреблению до 9 лет, прибавляя по году начиная с 5 лет, и сформируем матрицу, отражающую динамику изменения данного коэффициента (глубина базы устанавливается в начале программы присвоением соответствующего значения параметру q). По размеру и способу формирования данная матрица схожа с GZ-матрицей, описывающей динамику изменения методов прогнозирования (см. п. 4.4).

Ниже приведена подпрограмма, при помощи которой определяется значение коэффициента когерентности для каждого объекта техноценоза.

Следует отметить, что полученный вектор коэффициентов когерентности Ind может быть использован в качестве индикатора при выборе наиболее эффективного метода прогнозирования. Однако для определения критериальных значений данного индикатора необходимо провести его юстировку путем статистического сравнения коэффициентов когерентности с индексами образцовой GZ-матрицы, полученной ранее в результате анализа методов прогнозирования техноценоза (файл «GZ_matrix.xls» имеется среди файлов примера – см. по адресу: http://gnatukvi.narod.ru/zip_files/task_mcd.zip).

Итак, изменяя глубину базы данных, сформируем матрицу, отражающую динамику изменения коэффициента когерентности. Делается это следующим образом. Глубина базы устанавливается в начале программы присвоением соответствующего значения параметру q (см. начало данного параграфа). При этом следует сначала установить значение q, равное 5 (т.к. общая глубина базы составляет 10 лет, мы резервируем первые 5 лет в качестве базовой матрицы данных; см. пп. 4.1, 4.4). Затем необходимо осуществить расчет программы и полученный вектор Ind вручную скопировать в первый столбец матрицы G (см. ниже). Далее надо вернуться в начало программы, изменить значение q на 6, а полученный новый вектор Ind скопировать во второй столбец матрицы G. В итоге, изменяя q от 5 до 9, получим матрицу G (размерностью 69 на 5), в которой будут записаны значения коэффициентов когерентности для всех 69 объектов на протяжении пяти лет функционирования.

G:=

0,75	0,714	1,002	0,725	0,75
0,73	0,883	0,85	0,672	0,593
0,26	0,266	0,58	0,405	0,875
1,30	1,199	0,773	0,53	0,536
1,69	1,343	1,533	1,483	0,828
0,60	0,492	0,039	0,036	0,024
1,06	1,298	1,492	1,951	1,914
0,43	0,625	0,728	1,222	1,411

Юстировка коэффициента когерентности

Для дальнейшего анализа преобразуем матрицу коэффициентов когерентности в вектор, а также импортируем GZ-матрицу.



GZ

Следует отметить, что GZ-матрица получена ранее в результате последовательной многократной реализации различных методов прогнозирования применительно к базе данных по электропотреблению [20]. Столбцы этой матрицы – объекты, строки – последние пять лет предыстории функционирования техноценоза. Элемент матрицы – код метода, который давал для объекта наименьшую относительную годовую ошибку. Кодировка методов прогнозирования в GZ-матрице следующая:

1 – G-метод прогнозирования на основе модели авторегрессионного скользящего среднего (Garss);

2 – G-метод прогнозирования на основе модели декомпозиции временного ряда (Gmdvr);

3 – G-метод прогнозирования на основе анализа сингулярного спектра траекторной матрицы временного ряда (Gssa);

4 – Z-метод прогнозирования без фиксированной первой точки (Zbpt);

5 – Z-метод прогнозирования с фиксированной первой точкой (Zspt);

6 – Z-метод прогнозирования с делением на кастовые зоны (Zdkz).

Преобразуем значения в GZ-матрице по следующему правилу: если лучшим был определен G-метод прогнозирования, то значению элемента матрицы присваивается 1, если Z-метод – 2. После этого векторизуем полученную матрицу в вектор Kgz.

Объединим вектора, полученные из GZ-матрицы и матрицы коэффициентов когерентности.

Осуществим сортировку элементов по возрастанию значений коэффициента когерентности.

Определим максимальное и минимальное значения коэффициента когерентности.

Исследуем, насколько величина коэффициента когерентности связана с кодами методов прогнозирования. Ниже приведена подпрограмма D, которая по заданной ширине интервала значений коэффициента когерентности извлекает соответствующий вектор с кодами методов прогнозирования. Входные параметры подпрограммы следующие: a – матрица, b и c – левая и правая границы интервала значений коэффициента когерентности. На выходе подпрограммы формируется вектор с кодами методов прогнозирования.

Подпрограммы Chast_G и Chast_Z предназначены для определения частоты встречаемости соответственно G- и Z-методов прогнозирования.

Сформируем матрицу результатов следующим образом. При определении параметров вектора «M» (см. выше) устанавливаем в качестве границ интервала (см. параметры b и c подпрограммы D) значения Mn и 0.5. Рассчитываем значения Chast_G и Chast_Z, после чего вручную вставляем их в соответствующую строку матрицы N (см. ниже). Затем повторяем описанные действия для интервалов: [0.5;1.5) и [1.5;Mx]. Значения двух промежуточных границ интервалов юстировки (в данном случае 0.5 и 1.5) получены на основе предварительного анализа чувствительности, в ходе которого методом случайного поиска осуществлялось варьирование границами с целью определения таких значений, при которых коэффициент когерентности для Z- и G-методов различался бы в наибольшей степени.

Вызывает озабоченность достаточно большая ширина интервала изменения коэффициента когерентности [0.5,1.5), где примерно одинаково работают как Z-, так и G-методы. Проведем углубленное статистическое исследование с целью выявления метода прогнозирования, наиболее часто встречающегося как наиболее эффективного в данном интервале. Для этого сформируем вектор из исходной GZ-матрицы, объединим его с вектором коэффициента когерентности, после чего произведем сортировку.

Рассчитаем частоту встречаемости методов прогнозирования в интервале, а также статистические параметры наиболее часто встречающегося метода (как видим ниже, таковым оказался Gssa).

Анализ результатов

1. Если значение коэффициента когерентности лежит в пределах от минимального до 0.5, то это значит, что объект ведет себя нестабильно. В такой ситуации G-методы, выполняющие прогноз на основе анализа траектории электропотребления, дают значительные ошибки. Выходом может служить использование Z-методов, которые в условиях нестабильности способны осуществлять прогноз параметров объекта через поведение техноценоза, обладающего существенно большей инерционностью.

2. Если значение коэффициента когерентности лежит в пределах от 0.5 до 1.5, то это значит, что объект в основном ведет себя согласованно с техноценозом. В данной ситуации можно ожидать в равной степени хорошей работы как G-, так и Z-методов прогнозирования. Однако в ходе углубленного статистического анализа установлено, что здесь лучше всего работает метод на основе анализа сингулярного спектра (Gssa) (п. 5.2.2) (среднее значение коэффициента когерентности по всему техноценозу для данного метода составляет 0.899, а среднеквадратичное отклонение – 0.245).

3. Если значение коэффициента когерентности лежит в пределах от 1.5 до максимального значения, то это значит, что объект ведет себя гораздо стабильней системы, которая начинает претерпевать существенные структурные изменения. В данной ситуации для объектов лучше работают G-методы прогнозирования.

4. Таким образом, коэффициент когерентности является индикатором выбора метода прогнозирования и позволяет уже на этапе предварительной статистической обработки априорно судить о наиболее эффективных методах прогнозирования ресурсопотребления объектов, что существенно повышает скорость обработки данных и повышает точность прогноза (особенно если речь идет о крупных базах данных, формирующихся автоматически и управляемых в реальном масштабе времени).

При использовании материалов ссылки обязательны

E-mail: gnatukvi@mail.ru