Главная > Экономико-математическое моделирование > Виконання кореляційного і регресійного аналізу
Виконання кореляційного і регресійного аналізу25-01-2012, 11:47. Разместил: tester5 |
Контрольна робота з дисципліни "Економетрика" студента гр. ВФ-108 Звягіна Марії Михайлівни Розділ I. Практична частина Зміст завдань. Завдання 1 1. За вихідними даними виконати кореляційний аналіз: Таблиця 9 Основні показники роботи вантажних автомобілів великих і середніх організацій автомобільного транспорту в 2006 році Перевезено вантажів, тис. тонн Витрати, млн, крб Володимирська 594,6 258,3 Брянська 3178,9 656,5 Білгородська 523,8 824,4 Воронезька 2572,3 220,1 Іванівська 308,5 73,8 Костромська 580,5 82,7 Рязанська 203,7 65,4 Смоленська 389,3 86,6 Тульська 225,8 36,5 Ярославська 693,4 279,9Основним завданням кореляційного аналізу є - виявлення зв'язку між випадковими змінними та оцінка її тісноти. Показником тісноти лінійної зв'язку є коефіцієнт кореляції r . 1.1. Побудувати кореляційне поле і запропонувати гіпотезу про зв'язок досліджуваних факторів Для трактування лінійного зв'язку між змінної X ("Перевезено вантажів") і Y ("Витрати") за допомогою вбудованих можливостей Microsoft Excel побудуємо поле кореляції заданої вибірки спостережень (діаграма 1). кореляційний регресійний аналіз Характер розташування точок на діаграмі дозволяє зробити попередній висновок про те, що зв'язок між змінними пряма, тобто збільшення однієї із змінних веде збільшенню умовної (груповий) середньої інший. Зв'язок між змінними в діапазоні досить тісний, однак в діапазоні маються точки викиду, тобто точки, знаходяться на досить віддаленій відстані від загального масиву точок. Їм відповідають дані по Брянській, Білгородській і Воронезькій областях. Діаграма 1.
Зробимо припущення, що: 1. дані по Брянській області є точкою викиду; 2. дані по Білгородській області є точкою викиду; 3. дані по Воронезькій області є точкою викиду; 4. дані по Брянській і Білгородській областях є точками викиду; 5. дані по Брянській і Воронезькій областях є точками викиду; 6. дані по Білгородській і Воронезькій областях є точками викиду 7. дані по Брянській, Білгородській і Воронезькій областях є точками викиду. 1.2. Визначити коефіцієнти кореляції Для заданого масиву змінних коефіцієнт кореляції r = 0,454 (розрахований за допомогою функції Microsoft Excel корелят). Коефіцієнт кореляції r > 0, отже, кореляційний зв'язок між змінними пряма, що підтверджує попередній висновок, зроблений в п.1.1. Коефіцієнт кореляції r прийняв значення на відрізку [-1; 1], отже, ми можемо оцінити тісноту зв'язку випадкових величин, заданих масивами, за допомогою шкали Чеддока: Тіснота зв'язку Значення коефіцієнта кореляції при наявності: прямого зв'язку зворотного зв'язку Слабка 0,1 - 0,3 (-0,1) - (-0,3) Помірна 0,3 - 0,5 (-0,3) - (-0,5) Помітна 0,5 - 0,7 (-0,5) - (-0,7) Висока 0,7 - 0,9 (-0,7) - (-0,9) Вельми висока 0,9 - 0,99 (-0,9) - (-0,99)Коефіцієнт кореляції r належить інтервалу (0,3; 0,5), отже, зв'язок між змінними помірна. Розрахуємо коефіцієнти кореляції, виключаючи дані по суб'єктам РФ згідно висунутим припущенням: r = 0,116 r = 0,821 r = 0,578 r = 0,511 r = 0,455 r = 0,949 r = 0,824 Аналіз отриманих коефіцієнтів показує, що припущення 5 вірно, тобто дані по Брянській і Білгородській областях є точками викиду (Виняток точок, відповідних вказаним суб'єктам РФ, з кореляційного поля не спричинило за собою значної зміни коефіцієнта кореляції). Всі інші припущення вважаємо невірними. Крім того, відзначається значне збільшення тісноти зв'язку між змінними при виключенні з кореляційного поля точок, відповідних даними по Білгородській і Воронезькій областях (припущення 6), і її значне зменшення при виключенні даних по Брянській області. 1.3. Оцінити статистичну значущість обчислених коефіцієнтів кореляції Оцінку статистичної значущості коефіцієнтів кореляції будемо проводити за допомогою t-критерію Стьюдента на рівні значущості О± = 0,05. Парний двухвиборочного t-тест для середніхr = 0,454
Змінна 1 Змінна 2 Середнє 927,08 258,42 Дисперсія 1101362,746 73524,47289 Спостереження 10 10 Кореляція Пірсона 0,454062283 Гіпотетична різниця середніх 0 df 9 t-статистика 2, 208751921 P (T <= t) однобічне 0,027278104 t критичне однобічне 1,833112923 P (T <= t) двобічне 0,054556208 t критичне двобічне 2,262157158Розрахункове значення критерію Стьюдента t р = 2,21 менше критичного t КРІТ = 2,306 (взято з таблиці t-розподілів Стьюдента при числі ступенів свободи n -2 = 8 і величиною похибки О± = 0,05), з чого робимо висновок про незначущість коефіцієнта кореляції. Так як виняток даних по Брянській і Білгородській областях згідно з раніше проведеним аналізом не значно впливає на коефіцієнт кореляції, то при знаходженні t-критерію Стьюдента для вибірки вихідних даних при припущенні 5 отримаємо практично аналогічний результат. Парний двухвиборочного t-тест для середніхr = 0,455
Змінна 1 Змінна 2 Середнє 696,0125 137,9125 Дисперсія 607399,8755 9534,678393 Спостереження 8 8 Кореляція Пірсона 0,510547416 Гіпотетична різниця середніх 0 df 7 t-статистика 2,149664636 P (T <= t) однобічне 0,034323806 t критичне однобічне 1,894578604 P (T <= t) двобічне 0,068647613 t критичне двобічне 2,364624251Розрахункове значення критерію Стьюдента t р = 2,15 менше критичного t КРІТ = 2,45 (взято з таблиці t-розподілів Стьюдента при числі ступенів свободи n -2 = 6 і величиною похибки О± = 0,05). Коефіцієнт кореляції незначну. 1.4. Зробити підсумкові висновки. Між показниками роботи вантажних автомобілів великих і середніх організацій автомобільного транспорту в 2006 році існує помірна статистична взаємозв'язок. Для проведення аналізу дані по Брянській і Білгородській областях можна не враховувати. Завдання 2 2. За вихідними даними виконати регресійний аналіз: 2.1. Розрахувати параметри рівняння лінійної парної регресії; Лінійне рівняння парної регресії має вигляд: , де - оцінка умовного математичного очікування y b 0 , b 1 - емпіричні коефіцієнти регресії, що підлягають визначенню. Емпіричні коефіцієнти регресії b 0 , b 1 будемо визначати за допомогою інструменту Регресія MS Excel. ВИСНОВОК ПІДСУМКІВ
Регресійна статистика Множинний R 0,454062283 R-квадрат 0, 206172557 Нормований R-квадрат 0,106944127 Стандартна помилка 991,7552465 Спостереження 10
Дисперсійний аналіз
df SS MS F Значимість F Регресія 1 2043636,965 2043636,965 2,078 0,187 Залишок 8 7868627,751 983578,469 Разом 9 9912264,716
Коефіцієнти Стандартна помилка Y-перетин 472,939 444,546 Змінна X 1 1,757 1,219
Таким чином, емпіричні коефіцієнти регресії відповідно дорівнюють b 0 = 472,94, b 1 = 1,76. Тоді рівняння парної лінійної регресії, що зв'язує обсяги перевозяться вантажними автомобілями великих і середніх організацій автомобільного транспорту в 2006 році, y з величиною витрат на перевезення x , має вид:
2.2. Дати за допомогою загального (середнього) коефіцієнта еластичності порівняльну оцінку сили зв'язку фактора з результатом Оцінимо тісноту статистичного зв'язку між витратами на перевезення, вироблені вантажними автомобілями великих і середніх організацій в 2006 році, x і їх обсягами y . Ця оцінку проводиться за допомогою коефіцієнта кореляції r xy . Величина цього коефіцієнта розрахована в п.1.2 і дорівнює r = 0,454. Як говорилося вище, зв'язок між змінними помірна пряма. Параметр R-квадрат становить собою квадрат коефіцієнта кореляції r xy 2 і називається коефіцієнтом детермінації. Величина даного коефіцієнта характеризує частку дисперсії залежної змінної y , Пояснення регресією (пояснюючої змінної x ). Відповідно величина 1 - r xy 2 характеризує частку дисперсії змінної y , викликану впливом усіх інших, неврахованих у економетричної моделі пояснюють змінних. Таким чином, частка всіх неврахованих в отриманій економетричної моделі пояснюють змінних приблизно становить: 1 - 0, 206 = 0,794 або 79,4%. Ступінь зв'язку пояснюючої змінної x з залежною змінною y визначається за допомогою коефіцієнта еластичності, який для моделі парної лінійної регресії визначається у вигляді: . Тоді
Отже, при зміні величини витрат на вантажоперевезення на 1% їх обсяг змінюється на 0,49%. 2.3. Оцінити якість рівняння з допомогою середньої помилки апроксимації. Середня помилка апроксимації оцінюється по залежності:
Для цього вихідну таблицю доповнюємо двома колонками, в яких визначаємо значення, розраховані з використанням залежності і значення різниці. Перевезено вантажів, тис. тонн Витрати, млн, крб
Володимирська 594,6 258,3 926,869 0,559 Брянська 3178,9 656,5 1626,656 0,488 Білгородська 523,8 824,4 1921,720 2,669 Воронезька 2572,3 220,1 859,737 0,666 Іванівська 308,5 73,8 602,633 0,953 Костромська 580,5 82,7 618,274 0,065 Рязанська 203,7 65,4 587,871 1,886 Смоленська 389,3 86,6 625,128 0,606 Тульська 225,8 36,5 537,083 1,379 Ярославська 693,4 279,9 964,828 0,391 сума = 9,662 Середня помилка апроксимації становить:
Практично вважають, що значення середньої помилки апроксимації не повинно перевищувати 12-15% для грубого наближення регресії до реальної залежності. У нашому випадку помилка надмірна велика. Скористаємося результатами дослідження, проведеного в п.1, т. е виключимо з розглянутої вибірки дані по Брянській і Білгородській областях. У цьому випадку рівняння парної регресії набуде вигляду: . Частка неврахованих в отриманій економетричної моделі пояснюють змінних складе: 1 - 0,260 = 0,74 або 74%. Коефіцієнт еластичності складе: , а середня помилка апроксимації:
Виняток точок викиду з розглянутої вибірки знизило помилку апроксимації, проте її значення перевищує допустиме значення. 2.4. Оцінити статистичну надійність результатів регресивного моделювання за допомогою критерію Ст'юдента і F-критерію Фішера. Проведемо більш сувору оцінку статистичної надійності моделювання за допомогою F-критерію Фішера. Для цього перевіримо нульову гіпотезу H 0 про статистичної незначущості отриманого рівняння регресії за умовою: якщо при заданому рівні значущості О± = 0,05 теоретичне (розрахункове) значення F-критерію ( F ) більше його критичного значення ( F КРІТ ), то нульова гіпотеза відкидається і отримане рівняння регресії приймається значущим. ...Розрахункове значення F , певне за допомогою інструменту Регресія MS Excel, склало F = 2,078. Критичне значення F КРІТ визначимо за допомогою статистичної функції FРАСПОБР. Вхідними параметрами функції є рівень значущості (Ймовірність) і число ступенів свободи 1 і 2. Для моделі парної регресії число ступенів свободи відповідно дорівнює 1 (одна пояснююча змінна) і n - 2 = 10 - 2 = 8.
F КРІТ = 5,318. Розрахункове значення F = 2,078 менше критичного F КРІТ = 5,318, тому нульова гіпотеза H 0 про статистичну незначущість рівняння регресії приймається, що підтверджує висновок, зроблений в п.2.3. При розрахунку критеріїв Фішера для скороченої вибірки (виключаючи дані по Брянській і Білгородській областях) отримуємо аналогічний результат.
F = 2,115 < F КРІТ = 5,987. 2.5. Зробити підсумкові висновки. 1. Рівняння парної лінійної регресії, що зв'язує обсяги перевезених вантажними автомобілями великих і середніх організацій автомобільного транспорту в 2006 році, y з величиною витрат на перевезення x , має вигляд:
При цьому частка всіх неврахованих в отриманій економетричної моделі пояснюють змінних приблизно становить 79,4%, тобто врахованими залишаються лише 20,6% параметрів. Величина коефіцієнта еластичності говорить про те, що при зміні величини витрат на вантажоперевезення на 1% їх обсяг повинен змінитися на 0,49%. Розрахунок середньої помилки апроксимації ( А = 96,62%), а також аналіз за допомогою критерію Фішера показав, що отримане рівняння регресії не відповідає реальній залежності (в силу великої частки неврахованих в залежності параметрів). 2. Рівняння парної лінійної регресії для вибірки вихідних даних, виключає дані по Брянській і Білгородській областях, які за результатами виконання завдання 1 визнані точками викиду, має вигляд:
При цьому частка всіх неврахованих в отриманій економетричної моделі пояснюють змінних приблизно становить 74%. Величина коефіцієнта еластичності говорить про те, що при зміні величини витрат на вантажоперевезення на 1% їх обсяг повинен змінитися на 0,81%. Розрахунок середньої помилки апроксимації ( А = 56,25%), а також аналіз за допомогою критерію Фішера показав, що отримане рівняння регресії також не відповідає реальній залежності (в силу великої частки неврахованих в залежності параметрів). Результати регресійного моделювання не надійні. |