і більше числом факторів і змінної У, тобто модель виду:.
Будь економетричне дослідження починається зі специфікації моделі, тобто формулювання виду моделі. При цьому парна регресія достатня, якщо мається домінуючий фактор, який використовується в якості пояснюючої змінної Х.
Рівняння парної регресії характеризує зв'язок між 2 змінними, яка проявляється як деяка закономірність в цілому по сукупності спостережень. Практично ж в кожному окремому випадку величина У складається з 2 доданків, де Уj фактичне значення результативної ознаки, теоретичні значення результативної ознаки виходячи з відповідної матем. функції, Ej випадкова величина, характеризується відхиленням реального значення результативної ознаки від теоретичного, знайденого з рівняння регресії, Е-обурення і включає в себе вплив неврахованих у моделі факторів. Її присутність в моделі породжене 3 джерелами:
1. специфікація моделі.
2. вибірковий характер вихідних даних.
3. особливості вимірювання змінних.
Основні залежності, відносяться до парної регресії
від правильної специфікації залежить величина випадкової помилки. Від тим менше, чим у більшій мірі теоретичні значення підходять до фактичних даних.
для одержання гарного результату із сукупності зазвичай виключають одиниці з аномальними значеннями результативної ознаки. У парній регресії вибір виду моделей або математичної функції можливий 3 способами:
1. графічний. 2. аналітичний, тобто виходячи з теорії досліджуваної зв'язку. 3. експериментальний
при вивченні взаємозв'язку між 2 змінними графічний спосіб підбору виду рівнянь заснований на полікорреляціі (вихідні дані, позначені на площині ХОУ).
Основні типи кривих, використовувані при кількісній оцінці зв'язку між 2 змінними.
Аналітичний спосіб типу рівнянь заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
Наприклад, потреба підприємства в електроенергії у залежить від обсягу виконуваної продукції х і всю спожиту енергію можна розділити на 2 частини:
1. незв'язану безпосередньо з виробництвом продукції (а)
2. пов'язану безпосередньо з обсягом продукції, що випускається, яка зростає пропорційно збільшенню обсягу випуску (b).
Зв'язок можна зобразити у вигляді: у = а + bx. При використанні комп'ютерів для обробки інформації вибір виду рівняння здійснюється експериментальним способом, тобто шляхом порівняння величини залишкової дисперсії Дост, яка обчислюється за формулою: де n кількість спостережень досліджуваної ознаки, у-фактичні дані, - теоретичні дані, отримані з рівнянню регресії. Якщо рівняння проходить через всі точки кореляційного поля, то фактичне значення збігаються з теоретичними. Дост = 0.
Практично дослідження має місце деяка розсіяна точка відносно лінії регресії. Це розсіювання обумовлене впливом вивчених моделей чинників. При експериментальному способі перебираються різні математичні функції в автоматичному режимі і з них вибирається та функція, у якої Дост мінімально. Якщо ж Д ост виявляється приблизно однаковою для декількох функцій, то перевага віддається більш простим функціям.
5. лінійна регресія і кореляція: сенс і оцінка параметрів
Лінійна регресія зводиться до знаходження рівняння виду:
Рівняння виду (1) дозволяє за заданим значенням фактора Х знайти теоретичне значення результативної ознаки, представляючи в рівняння фактичне значення фактора Х. побудова лінійної регресії зводиться до оцінки цих параметрів грунтується на методі найменших квадратів (МНК) - дозволяє одержати також оцінки параметрів а і b при яких сума квадратів відхилень теоретичних значень результативної ознаки від фактичного значення мінімальна, т.е
Це означає, що з усіх ліній регресії на графіку вибирається так, щоб сума квадратів між точками і цією лінією по вертикалі була мінімальна.
Щоб знайти мінімум функції потрібно обчислити приватні похідні по кожному з невідомих параметрів a і b і прирівняти їх до нуля.
Рішення системи будуть наступні рівняння.
Параметр b називається коефіцієнтом регресії якщо а більше 0, то відносна зміна результату У відбувається повільніше ніж зміна чинника Х. якщо а менше нуля, то відбувається випередження зміни результату під зміною фактора.
Рівняння регресії завжди доповнюється коефіцієнтом або показником тісноти зв'язку.
При використанні лінійної регресії в якості показника тісноти зв'язку використовується коефіцієнт кореляції, який позначається:
Величина коефіцієнта кореляції знаходиться в межах одиниці
Якщо b> 0 то коефіцієнт кореляції [-1; 0]. Величина лінійного коефіцієнта кореляції оцінює тісноту зв'язку ознаки Х і У в лінійній формі. Але це не означає, що якщо коефіцієнт кореляції дорівнює 0, то між Х і У зв'язку немає. Це означає, що потрібно користуватися ін специфікацією. Для оцінки якості підбору лінійної функції розраховується квадрат лінійної кореляції. - Коефіцієнт детермінації. Він позначає частку депресії результативної ознаки У, який пояснюється регресією в загальній депресії результативної ознаки. Тобто 1 - величина характеризує частку дисперсії, викликану впливом інших неврахованих у регресії факторів. Служить одним з критеріїв для оцінки якості лінійної моделі, тобто чим більше частка пояснене варіації, тим менше модель добре апроксимує вихідні дані. Отже, можна використовувати для прогнозування результат. Ознаки.
6. оцінка існування параметрів лінійної регресії і кореляції
після того, як знайдено рівняння регресії проводиться оцінка значимості його параметрів, а також рівняння в цілому. Оцінка значущості рівнянь проводиться за допомогою F критерію Фішера. Для цього висувається гіпотеза Але, яка говорить, що b = 0, що при Х не оказивае6т вплив на У. безпосередньо розрахунком критерію передує аналіз дисперсії. Центральне місце в цьому аналізі займає розкладання загальної суми квадратів на 2 складові: пояснення і непоясненим.
перша сума-загальна сума квадратів відхилень результативної ознаки від середнього рівня. Друга сума - Сума квадратів відхилень, пояснена регресією (факторна). Третини суми- залишкова сума відхилень, непояснена частина.
Якщо фактор Х не робить впливу на результат У, то лінія регресії на графіку паралельна ОХ і. це означає що вся дисперсія результативної ознаки обумовлена ​​впливом інших неврахованих регресією факторів. І тоді загальна сума квадратів відхилень збігається із залишковою. Якщо ж кр чинники не впливають на результат, то У і Х пов'язані функціонально і залишкова дорівнює нулю. в цьому випадку загальна сума квадратів відхилень збігається з сумою квадратів відхилень поясненої регресією. Т.к. не всі точки полекорреляцііі лежать на лінії регресії, то завжди має місце їх розкид, викликаний впливом ін факторів. Сума квадратів відхилень пов'язані з числом ступенів свободи, тобто з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язано з числом одиниць сукупності n і числом опр. у ній констант. Існує рівність між ступенями свободи загальної факторної та залишкової суми квадратів відхилень. N-1 = 1 + (n-2). Розділивши кожну суму квадратів на соотв. Ступені свободи отримаємо середній квадрат відхилень або дисперсію на одну. Ступінь свободи
Зіставляючи факторну та залишкову дисперсії в розрахунку на одну ступінь свободи отримуємо величину F критерію
Після знаходження величини F для визначення вірності гіпотези Але вона порівнюється з табличним значенням F-критерію. Fтаблічное залежить від соотв. Ступені свободи і рівня значущості. Fтабл більше F фактичної, то гіпотеза Але не може бути відкинута, тому є ризик неправильного висновку про наявність зв'язку. У цьому випадку рівняння вважається статистично незначущим, якщо виконується зворотне нерівніст...