Сенс регресійного аналізу - побудова функціональних залежностей між двома групами змінних величин Х 1 , Х 2 , ... Х р і Y. При цьому мова йде про вплив змінних Х (це будуть аргументи функцій) на значення змінної Y (значення функції). Змінні Х ми будемо називати факторами, а Y - відгуком.
Найбільш простий випадок - встановлення залежності одного відгуку y від одного фактора х. Такий випадок називається парною (простий) регресією.
Парна регресія - рівняння зв'язку двох змінних у і x :
,
де у - залежна змінна (результативна ознака);
х - незалежна, пояснююча змінна (ознака-фактор).
Розрізняють лінійні і нелінійні регресії.
Лінійна регресія:.
Нелінійні регресії діляться на два класи: регресії, нелінійні щодо включених в аналіз пояснюють змінних, але лінійні за оцінюваним параметрам, і регресії, нелінійні по оцінюваним параметрам.
Регресії, нелінійні по пояснював змінним:
• поліноми різних ступенів
• рівнобічна гіпербола
Регресії, нелінійні по оцінюваним параметрами:
• статечна ;
• показова
• експоненціальна
Побудова рівняння регресії зводиться до оцінки її параметрів. Для оцінки параметрів регресій, лінійних за параметрами, використовують метод найменших квадратів (МНК). МНК дозволяє одержати такі оцінки параметрів, при яких сума квадратів відхилень фактичних значень результативної ознаки у від теоретичних мінімальна, тобто
Для лінійних і нелінійних рівнянь, що приводяться до лінійних, вирішується наступна система щодо а і b :
Можна скористатися готовими формулами, які випливають з цієї системи:
-->p>
тісноту зв'язку досліджуваних явищ оцінює лінійний коефіцієнт парної кореляції для лінійної регресії
і індекс кореляції - для нелінійної регресії ():
Оцінку якості побудованої моделі дасть коефіцієнт (індекс) детермінації, а також середня помилка апроксимації.
Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:
Допустимий межа значень - не більше 8 - 10%.
Середній коефіцієнт еластичності показує, на скільки відсотків в середньому по сукупності зміниться результат у від своєї середньої величини при зміні фактора x на 1% від свого середнього значення:
Завдання дисперсійного аналізу полягає в аналізі дисперсії залежної змінної:
де - загальна сума квадратів відхилень;
- сума квадратів відхилень, зумовлена регресією (В«поясненаВ» або В«факторнаВ»);
- залишкова сума квадратів відхилень.
Частку дисперсії, пояснюється регресією, в загальній дисперсії результативної ознаки у характеризує коефіцієнт (індекс) детермінації R 2 :
Коефіцієнт детермінації - квадрат коефіцієнта або індексу кореляції.
F -тест - оцінювання якості рівняння регресії - складається в перевірці гіпотези Н про про статистичної незначущості рівняння регресії і показника тісноти зв'язку. Для цього виконується порівняння фактичного F факт і критичного (табличного) F табл значень F -критерію Фішера. F факт визначається зі співвідношення значень факторної і залишкової дисперсій, розрахованих на одну ступінь свободи:
п - число одиниць сукупності;
т - число параметрів при змінних х.
F табл - це максимально можливе значення критерію під впливом випадкових факторів при даних ступенях свободи і рівні значущості а. Рівень значущості а - ймовірність відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай а приймається рівною 0,05 або 0,01.
Якщо F табл факт , то H 0 - гіпотеза про випадкову природі оцінюваних характеристик відхиляється і признається їх статистична значимість і надійність. Якщо F табл > F факт , то гіпотеза Н < sub> 0 не відхиляється і признається статистична незначущість, ненадійність рівняння регресії.
Для оцінки статистичної значущості коефіцієнтів регресії і кореляції розраховуються t -критерій Стьюдента і довірчі інтервали кожного з показників. Висувається гіпотеза Н 0 про випадкову природу показників, тобто про незначущі їх відмінності від нуля. Оцінка значимості коефіцієнтів регресії і кореляції за допомогою f-критерію Стьюдента проводиться шляхом зіставлення їх значень з величиною випадкової помилки:
Випадкові помилки параметрів лінійної регресії і коефіцієнта кореляції визначаються за формулами:
Порівнюючи фактичне і критичне (табличне) значення t-статистики - t табл і t факт - приймаємо або відкидаємо гіпотезу H про .
Зв'язок між F-критерієм Фішера та t-статистикою Ст'юдента виражається рівністю
Якщо t табл факт , то Hо відхиляється, тобто а, b і не випадково відрізняються від нуля і сформувалися під впливом систематично діючого фактора х. Якщо t табл > t факт , то гіпотеза Н про не відхиляється і признається випадкова природа формування a , b або .
Для розрахунку довірчого інтервалу визначаємо граничну помилку О” для кожного показника:
Формули для розрахунку довірчих інтервалів мають наступний вигляд:
Якщо в межі довірчого інтервалу потрапляє нуль, тобто нижня межа негативна, а верхня позитивна, то оцінюваний параметр приймається нульовим, так як він не може одночасно приймати та позитивне, і негативне значення.
Прогнозне значення визначається шляхом підстановки в рівняння регресії відповідного (Прогнозного) значення . Обчислюється середня стандартна помилка прогнозу :
де
і будується довірчий інтервал прогнозу:
де
Завдання:
За 22 регіонах країни вивчається залежність роздрібного продажу телевізорів, y від середньодушових грошових доходів у місяць, x (табл. 1):
№ регіону
X
Y
1,000
2,800
28,000
2,000
2,400
21,300
3,000
2,100
21,000
4,000
2,600
23,300
5,000
1,700
15,800
6,000
2,500
21,900
7,000
2,400
20,000
8,000
2,600
22,000
|