них перетворень змінних, які включають нормалізацію предіктанта і попереднє виключення нелінійності зв'язків, отримуємо робоче рівняння:
, (2)
Завдання з перетвореними предикторами вирішується методом покрокового регресійного аналізу. Даний вид аналізу дозволяє включати в схему тільки ті фактори, які мають значиму кореляцію з показниками забруднення. Застосування такого апарату обумовлено тим, що немає ніякої гарантії, що між використовуваними предикторами відсутня тісний кореляційний зв'язок. Якщо ж такий зв'язок існує, то відповідна система рівнянь методу найменших квадратів, використовувана для визначення коефіцієнтів в рівнянні регресії, виявляється погано обумовленою, а її рішення може призвести до накопичення обчислювальних помилок.
Після того як визначені параметри b i , отримуємо прогностичне рівняння. За цим рівнянням розраховуються прогностичні значення максимальної концентрації забруднюючої домішки. Застосовність цього рівняння перевіряється його випробуванням на незалежній вибірці.
З значень С МАХ і С МАХПРОГ , отриманих з використанням прогностичних рівнянь за залежному і незалежному рядам, формується таблиця результатів прогнозу і розраховуються статистичні характеристики ефективності прогнозу максимальної концентрації домішки.
Вихідні дані для розробки стохастичних моделей були надані ГУ В«ГГОВ» по таких містах, як Санкт-Петербург, Обнінськ, Мілан, Мадрид, Новосибірськ та ін
2. МЕТОДОЛОГІЯ РІШЕННЯ
2.1 Модель
Регресійний аналіз - це ефективний метод, який дозволяє аналізувати значні обсяги інформації з метою дослідження ймовірної взаємозв'язку двох або більше змінних.
У регресійному аналізі розглядається зв'язок між однією, залежною, змінної і декількома іншими незалежними змінними. Цей зв'язок представляється за допомогою математичної моделі, тобто рівнянням, яке зв'язує залежну змінну з незалежними. В рамках регресійного аналізу модель представляється у вигляді:
, (3)
де С МАХ - предіктант (в нашому випадку максимальна концентрація розглянутої домішки за добу), X i - предиктори (в якості предикторів використовують різні метеорологічні характеристики і концентрації інших забруднюючих домішок), а b i - коефіцієнти регресії, які потрібно оцінити.
Регресійний аналіз використовується з двох причин.
1. Опис залежності між предикторами і предіктантом допомагає встановити наявність можливого причинного зв'язку.
2. Отримання аналітичної залежності між змінними дає можливість передбачати майбутні значення С МАХ за значеннями предикторів.
Успішне застосування цього математичного апарату вимагає виконання двох умов:
1. Функції розподілу змінних (Предіктанта і кожного з предикторів) підкоряються нормальному випадковому законом.
2. Форма зв'язку між змінними повинна бути близькою до лінійної.
2.2 Алгоритм
Попередній етап розробки прогностичної схеми полягає в підготовці вихідного ряду даних:
1. Ряд розбивається на В«навчальнуВ» та В«НезалежнуВ» вибірки. У даній роботі прогностична модель забруднення атмосфери розробляється з використанням тривалого ряду даних спостережень. Дві третини ряду розглядаються, як В«навчальнаВ» вибірка для побудови прогностичної схеми, а залишилася одна третина застосовується для перевірки її ефективності на незалежному матеріалі (тобто як В«незалежнаВ» вибірка). До В«незалежної вибірціВ» відносяться дані спостережень, відповідні тижням року з номерами, кратними трьом (тобто третя, шоста, дев'ята і т.д. тижні). Інші дані відносяться до В«повчальноїВ» вибірці.
2. За В«повчальноїВ» вибірці будується функція розподілу добових максимумів концентрацій і визначається її шестидесятих процентиль З 60 .
3. Встановлюється граничне значення С ГР для прогнозу добових максимумів, яке приймається рівним С 60 .
Прогноз C MAX здійснюється за такими правилам:
1. Якщо максимальна за попередню добу C ' MAX концентрація була нижчою З ГР , то прогнозована максимальна концентрація на чергові добу C MAX ПРОГ приймається рівною C ' MAX (В«інерційний прогнозВ»).
2. Якщо максимальна за попередню добу C ' MAX концентрація була вище або дорівнює С ГР , то прогноз здійснюється з використанням прогностичних схем.
Застосування методу лінійної регресії вимагає, щоб кореляційні зв'язки між предіктантом з кожним з предикторів були близькі до лінійних, однак ця умова не завжди виконується. Для виключення нелінійності зв'язків предиктори потрібно перетворити за допомогою кривих залежності показника забруднення повітря від окремих метеопараметров, побудованих по використаному для розробок матеріалу спостережень. При цьому кожне значення предиктора змінюється на відповідне йому середнє значення характеристики забруднення.
- Для кожної градації предиктора (їх повинно бути не менше 5) розрахувати середнє значення C MAX . При недостатній кількості випадків в одній з градацій, вона об'єднується з сусідніх. Таким чином, отримуємо набір точок з абсцисами M (C MAX ) і ординатами, відповідними серединам відрізків осреднения.
- Побудувати графік кусочно-лінійної функції, у якої отримані точки є кутовими.
- Кожному значенню перетвореного предиктора зіставляється значення кусково-лінійної функції в відповідній точці.
Зв'язок перетворених таким чином предикторів з предіктантом в значній мірі лінеарізуется. Цей прийом дозволяє врахувати реальний вид зв'язку в кожному конкретному випадку. Він близький до так званого В«кусково-лінійноюВ» перетворенню, застосовуваному при побудові моделей для прогнозу погоди.
При виникненні труднощів, пов'язаних з тим, що дані, які підпорядковуються якомусь несиметричному розподілу, повинні бути піддані аналізу, теорія якого розроблена в основному для нормального розподілу, можна перетворити емпіричне розподіл у нормальне (В«нормалізувати змінніВ») і потім продовжити аналіз на базі відомої теорії.
Для нормалізації змінних використовується стандартне перетворення вибіркової функції розподілу в нормальну (гауссову) із середнім, рівним 0, і стандартним відхиленням, рівним 1. Це перетворення здійснюється за формулою
, (4)
де Ф -1 (t) - зворотна функція до функції розподілу нормальної випадкової величини зі середнім значенням нуль і стандартним відхиленням одиниця, а F (x) - вибіркова функція розподілу розглянутої випадкової величини X.
Завдання з перетвореними предикторами вирішується методом багатовимірної покрокової регресії. На кожній ітерації цього методу шукається предиктор, який має найбільший зв'язок з предіктантом. Таким чином визначаються найбільш значимі предиктори, які слід включити в рівняння регресії.
Якщо значущими виявилися два предиктора, що відповідають двом термінам вимірювання одного і того ж метеорологічного параметра, то в рівняння регресії включається той, який більше пов'язаний з предіктантом. У підсумку повинні залишитися 4 - 7 найбільш інформативних предикторів, зв'язок яких з предіктантом найбільш значима.
Даний вид аналізу дозволяє включати в схему тільки ті фактори, які мають значиму кореляцію з показниками забруднення. Застосування такого апарату також обумовлено тим, що немає ніякої гарантії, що між використовуваними предикторами відсутня тісний кореляційний зв'язок. Якщо ж такий зв'язок існує, то відповідна система рівнянь методу найменших квадратів, використовувана для визначення коефіцієнтів в рівнянні регресії, виявляється погано обумовленою, а її рішення може призвести до накопичення обчислювальних помилок. Після того, як визначені параметри b i , отриму...