Довідковий матеріал до теми:
Множинна регресія - рівняння зв'язку з декількома незалежними змінними:
де - Залежна змінна (результативна ознака);
- незалежні змінні (фактори).
Для побудови рівняння множинної регресії частіше використовуються наступні функції:
лінійна -
статечна -
експонента -
гіпербола -.
Можна використовувати й інші функції, що наводяться до лінійного вигляду.
Для оцінки параметрів рівняння множинної регресії застосовують метод найменших квадратів (МНК). Для лінійних рівнянь та нелінійних рівнянь, що приводяться до лінійним, будується наступна система нормальних рівнянь, рішення якої дозволяє одержати оцінки параметрів регресії:
Для її вирішення може бути застосований метод визначників:
,, ...,,
де - Визначник системи;
- приватні визначники; які виходять шляхом заміни відповідного стовпця матриці визначника системи даними лівій частині системи.
Інший вид рівняння множинної регресії - рівняння регресії в стандартизованому масштабі:
де - Стандартизовані змінні;
- стандартизовані коефіцієнти регресії.
До рівнянню множинної регресії в стандартизованому масштабі застосуємо МНК. Стандартизовані коефіцієнти регресії (- коефіцієнти) визначаються з наступної системи рівнянь:
.
Зв'язок коефіцієнтів множинної регресії зі стандартизованими коефіцієнтами описується співвідношенням
Параметр визначається як.
Середні коефіцієнти еластичності для лінійної регресії розраховуються за формулою
Для розрахунку приватних коефіцієнтів еластичності застосовується наступна формула:
.
Тісноту спільного впливу факторів на результат оцінює індекс множинної кореляції:
Значення індексу множинної кореляції лежить в межах від 0 до 1 і повинно бути більше або дорівнює максимальному парному індексу кореляції:
Індекс множинної кореляції для рівняння встандартизований масштабі можна записати у вигляді
При лінійної залежності коефіцієнт множинної кореляції можна визначити через матрицю парних коефіцієнтів кореляції:
---- визначник матриці парних коефіцієнтів кореляції;
------ визначник матриці межфакторной кореляції.
Приватні коефіцієнти (або індекси) кореляції, що вимірюють вплив на y фактора при незмінному рівні інших факторів, можна визначити за формулою:
або по рекурентною формулою:
.
Приватні коефіцієнти кореляції змінюються в межах від -1 до 1.
Якість побудованої моделі в цілому оцінює коефіцієнт (індекс) детермінації. Коефіцієнт множинної детермінації розраховується як квадрат індексу множинної кореляції:
Скоригований індекс множинної детермінації містить поправку на число ступенів свободи і розраховується за формулою:
де n-число спостережень;
m - Число факторів.
Значимість рівняння множинної регресії в цілому оцінюється за допомогою F-критерію Фішера:
Приватний F-критерій оцінює статистичну значущість присутності кожного факторів в рівнянні. У загальному вигляді для фактора приватний F-критерій визначиться як
Оцінка значущості коефіцієнтів чистої регресії за допомогою t-критерію Стьюдента зводиться до обчислення значення
де - Середня квадратична помилка коефіцієнта регресії вона може бути визначена за наступною формулою:
При побудові рівняння множинної регресії може виникнути проблема мультиколінеарності факторів, їхній тісній лінійної пов'язаності.
Вважається, що дві змінні явно колінеарні, тобто перебувають між собою в лінійній залежності, якщо
За величиною парних коефіцієнтів кореляції виявляється лише явна коллінеарність факторів. Найбільші труднощі у використанні апарату множинної регресії виникають при наявності мультиколінеарності факторів. Чим сильніше мультиколінеарності факторів, тим менш надійна оцінка розподілу суми пояснене варіації за окремими факторами за допомогою методу найменших квадратів.
Для оцінки мультиколінеарності факторів може використовуватися визначник матриці парних коефіцієнтів кореляції між факторами.
Якщо б фактори не корелювали між собою, то матриця парних коефіцієнтів кореляції між факторами була б одиничною матрицею, оскільки всі недіагональні елементи були б дорівнюють нулю. Так, для що включає три пояснюють змінних рівняння
матриця коефіцієнтів кореляції між факторами мала б визначник, рівний 1:
так як і.
Якщо ж, навпаки, між факторами існує повна лінійна залежність і все коефіцієнти кореляції дорівнюють 1, то визначник такої матриці дорівнює 0:
.
Чим ближче до 0 визначник матриці межфакторной кореляції, тим сильніше мультиколінеарності факторів і ненадійніше результати множинної регресії. І навпаки, чим ближче до 1 визначник матриці межфакторной кореляції, тим менше мультиколінеарності факторів.
Перевірка мультиколінеарності факторів може бути проведена методом випробування гіпотези про незалежності змінних. Доведено, що величина має наближене розподіл з ступенями свободи. Якщо фактичне значення перевершує табличне (критичне), то гіпотеза відхиляється. Це означає, що, недіагональні ненульові коефіцієнти кореляції вказують на коллінеарність факторів. Мультиколінеарності вважається доведеною.
Для застосування МНК потрібно, щоб дисперсія залишків була гомоскедастічной. Це означає, що для кожного значення фактора залишки мають однакову дисперсію. Якщо ця умова не дотримується, то має місце гетероскедастичності.
При порушенні гомоскедастічності ми маємо нерівності
При малому обсязі вибірки для оцінки гетероскедастичності може використовуватися метод Гольдфельда-Квандта. Основна ідея тесту Гольдфельда-Квандта полягає в наступному:
1) упорядкування спостережень в міру зростання змінної;
2) виключення з розгляду центральних спостережень; при цьому
-число оцінюваних параметрів;
3) поділ сукупності зі спостережень на дві групи (відповідно з малими і з великими значеннями фактора) і визначення по кожній з груп рівнянь регресії;
4) визначення залишкової суми квадратів для першої та другої груп і знаходження їх відносини:.
При виконанні нульової гіпотези про гомоскедастічності відношення R буде задовольняти F-критерію зі ступенями свободи для кожної залишкової суми квадратів. Чим більше величина R перевищує табличне значення F-критерію, тим більше порушена передумова про рівність дисперсій залишкових величин.
Рівняння множинної регресії можуть включати в якості незалежних змінних якісні ознаки (наприклад, професія, стать, освіта, кліматичні умови, окремі регіони і т. д.). Щоб ввести такі змінні в регресійну модель, їх необхідно впорядкувати та присвоїти їм ті чи інші значення, тобто якісні змінні перетворити в кількісні.
Такого виду сконструйовані змінні прийнято в економетрики називати фіктивними змінними. Наприклад, включати в модель фактор В«статьВ» у вигляді фіктивної змінної можна в наступному вигляді:
Коефіцієнт регресії при фіктивної змінної інтерпретується як середня зміна залежної змінної при переході від однієї категорії (жіноча стать) до іншої (чоловічий стать) при незмінних значеннях решти параметрів. На основі t-критерію Стьюдента робиться висновок про значимість впливу фіктивної змінної, суттєвості розбіжності між категоріями.
Типова задача № 1
За 30 територіях Росії є дані, представлені в табл. 1.
Таблиця 1
Ознака
Середнє значення
Середнє квадратичне відхилення
Лінійний коефіцієнт парної кореляції
...