Главная > Математика > Кореляційний аналіз

Кореляційний аналіз


25-01-2012, 10:29. Разместил: tester1
Кореляційний аналіз
Кореляційний аналіз - математико-статистичний метод виявлення взаємозалежності компонент багатовимірної випадкової величини та оцінки тісноти їх зв'язку. Передумови кореляційного аналізу

При побудові кореляційних моделей виходять з виконання умов випадковості результатів спостережень і нормальності закону розподілу аналізованої h -мірної генеральної сукупності, що забезпечує лінійний характер досліджуваної залежності між спостережуваними ознаками і дозволяє використовувати в якості показників сили стохастичною (ймовірнісної) зв'язку парні, приватні та множинні коефіцієнти кореляції і детермінації.

Поняття "кореляційна залежність "

У статистичних дослідженнях виділяють два види зв'язку між випадковими величинами: функціональну і стохастичну.

Залежність ознак називається функціональної, якщо кожне спостережуване значення залежної змінної однозначно визначається по отриманим в тому ж самому спостереженні значенням решти змінних згідно деякому правилу: , Єдиному для всіх спостережень.

стохастичних залежностей змінної від змінних називається таке відношення між випадковими величинами, при якому кожній реалізації випадкового вектора однозначно відповідає деяке умовне розподіл ймовірностей випадкової величини, при цьому, по крайней мірою, двом можливим різним реалізаціям відповідають неоднакові розподілу.

На відміну від функціональної залежності, коли кожному набору значень пояснюючих змінних відповідає тільки одне значення пояснюється змінної, при стохастичної залежності будь допустимої сукупності значень відповідає безліч можливих значень залежної змінної.

кореляційної залежності змінної від змінних називається функціональна залежність умовного математичним сподівання випадкової величини від реалізації випадкового вектора.

Кореляційна залежність є лише однією з приватних форм стохастичною зв'язку між випадковими величинами і не вичерпує в загальному випадку весь обсяг поняття "стохастична залежність".

Функція, встановлює залежність умовного математичного очікування від можливих значень випадкових величин, називається функцією регресії випадкової величини на випадковий вектор.

Якщо функція регресії представима як лінійна комбінації своїх аргументів:

,

де - деякі константи, то відповідна кореляційна залежність називається лінійною.

Аналітичне завдання кореляційної залежності в вигляді

називається рівнянням регресії випадкової величини на випадковий вектор.

Двовимірна кореляційна модель

Аналізується кореляційна залежність між двома ознаками,.

Передбачається, що розподіл ймовірностей двовимірної випадкової величини підпорядковане законом Гауса, тобто щільність спільного розподілу, визначається формулою:


містила п'ять параметрів:

- математичне очікування;

- математичне очікування;

- дисперсія;

- дисперсія;

- коефіцієнт кореляції між, .


Коефіцієнт кореляції як міра тісноти стохастичною зв'язку між двома випадковими величинами

З умови нормальності спільного розподілу ознак, безпосередньо випливає, що розподіл кожного їх них також підпорядковане закону Гаусса з відповідними параметрами:

;

.

Якщо, то з виразів, що задають двовимірну та одномірні щільності розподілу ймовірностей ,, Випливає, що, тобто , Є незалежні між собою випадкові величини.

Для випадкових величин,, спільний розподіл яких є нормальним, поняття "некоррелированности" і "Стохастична незалежність" еквівалентні.

Таким чином, для розв'язуваної задачі коефіцієнт кореляції може служити мірою сили стохастичною взаємозв'язку розглянутих випадкових величин.

Поза рамками кореляційної моделі рівність нулю коефіцієнта кореляції вказує лише на некоррелированности вихідних змінних, але не підтверджує відсутність іншої форми стохастичної залежності.

Коефіцієнт кореляції не має розмірності та, отже, його можна використовувати при аналізі залежності ознак, що розрізняються по мірним шкалами.

Значення за абсолютній величині не перевершує одиниці.

Якщо, лінійна зв'язок між змінними та відсутня.

Значення вказує на наявність функціональної лінійної залежності між ними.

У міру наближення до одиниці умовні дисперсії прагнуть до нуля, що свідчить про менший розсіянні значень змінних, щодо відповідних ліній регресії і про більш тісному зв'язку між даними змінними.

Позитивний знак коефіцієнта кореляції означає, що прямі регресії мають в координатній площині позитивний тангенс кута нахилу, із збільшенням (або зменшенням) значення будь-якої з змінних, пропорційно в середньому зростає (відповідно убуває) значення іншої змінної.

Негативний знак коефіцієнта кореляції вказує на зворотну тенденцію.

Рівняння лінійної парної регресії

Функції регресії на і на знаходяться за допомогою формул, що визначають умовні математичні очікування:

,


При цьому умовні щільності розподілу ймовірностей випадкових величин, представляються у вигляді відносин відомих безумовних густин розподілу:

Подальше інтегрування функцій, по x , відповідно по y , безпосередньо дає рівняння регресії на, а також рівняння регресії на:

;

,

;,

де

- коефіцієнт регресії на

- коефіцієнт регресії на.

Лінійний характер кореляційної залежності між спільно нормально розподіленими випадковими величинами проявляється в тому, що зі зміною однієї величини пропорційно змінюється умовне математичне сподівання іншої величини. Графіки функцій регресії (іменовані лініями регресії) представляють собою прямі.

У разі некоррелированности,, тобто при, прямі регресії на і на паралельні відповідно координатним осям і.

Парний коефіцієнт детермінації

Ступінь розсіювання значень (або ) Щодо лінії регресії на (або на) характеризують (в середньому) умовні дисперсії:

Розрахункові формули для і знаходяться подібно до того, як визначалися функції регресії на і на.

У підсумку,

.

Квадрат коефіцієнта кореляції називається парним коефіцієнтом детермінації.

З наведених виразів для умовних дисперсій випливає, що величина вказує частку дисперсії однієї випадкової величини, обумовлену варіацією інший випадкової величини.


Емпіричні характеристики кореляційної залежності

У практиці статистичних досліджень параметри спільного розподілу ймовірностей випадкових величин, включених в аналіз, як правило, невідомі, і тісноту зв'язку між змінними оцінюють по статистичним даними і вибірковим аналогам кореляційних характеристик.

З цією метою в двовимірному кореляційному аналізі використовують "поле кореляції ", будують кореляційну таблицю, розраховують точкові оцінки параметрів кореляційної моделі, перевіряють значущість параметрів зв'язку і знаходять інтервальні оцінки для значущих параметрів, оцінюють рівняння регресії.

Корреляционное поле

Кореляційним полем називається сукупність нанесених на координатну площину реалізацій випадкового вектора, тобто вибіркових точок.

За розташуванням точок кореляційного поля можна скласти попередню думку про характерні особливості залежно випадкових величин (Наприклад, про те, що значення будь-якої з цих величин в середньому зростає або убуває при зростанні значення іншої величини).

Найбільш точну інформацію про напрямку і силі зв'язку між величинами, дають коефіцієнт кореляції та рівняння регресії.

Кореляційна таблиця

У понятійному сенсі - являє собою узагальнення поняття В«варіаційний ряд В», з прикладної точки зору - є форм...ою компактної запису вибіркових даних двовимірної випадкової величини:

...

...

...

...

...

...

...

...

...

...

...

...

n

де

;

- впорядковані за зростанням послідовності всіх різних значень, відповідно, наявних у вибірці.

- кількість пар.

- сума елементів-го стовпця, відповідно - ой рядки кореляційної таблиці. При цьому

.

Точкові оцінки параметрів двовимірного розподілу

Для отримання наближених значень параметрів кореляційної моделі використовують, як правило, метод моментів, розрахунки виробляють згідно наступних формулах.

Характеристики розподілу випадкового вектора

теоретичні

оцінки за вибірковими даними

згрупованим

НЕ згрупованим

Наведені емпіричні характеристики двовимірного нормального закону розподілу випадкового вектора про бладают властивістю спроможності,, є, крім того, незміщеними і ефективними оцінками.

Апроксимація рівнянь регресії

;.

Перевірка гіпотези про відсутність кореляційної залежності між випадковими величинами

Вибірковий парний коефіцієнт кореляції r , знайдений за кінцевим числом статистичних даних, практично завжди відмінний від нуля, однак, звідси не завжди випливає, що невідомий генеральний парний коефіцієнт кореляції ПЃ також не дорівнює нулю, тобто що кореляційна залежність дійсно має місце. Потрібно додатково здійснити перевірку припущення про значимість коефіцієнта кореляції.

При справедливості основної гіпотези ("кореляційна залежність між, відсутня ") статистика застосовуваного критерію

має розподіл Стьюдента з числом ступенів свободи, рівним.

При рівні значущості гіпотеза відкидається, якщо виконується нерівність, в якому під символом розуміється критичне значення, яке задовольняє рівнянню

.

При відкиданні основний гіпотези укладають, що ознаки, пов'язані лінійним кореляційним співвідношенням, в іншому випадку роблять висновок, що на основі наявної вибірки кореляційна залежність між ними не встановлена.

Якщо в результаті перевірки гіпотеза буде відкинута, то вважають, що коефіцієнт кореляції значимо (Суттєво) відрізняється від нуля, а розраховане за статистичними даними значення r може бути використано в якості його точкової оцінки.

Інтервальна оцінка коефіцієнта кореляції

кореляційна регресія рівняння математичний

При побудові довірчого інтервалу для невідомого коефіцієнта кореляції використовується спеціальна функція - перетворення Фішера (гіперболічний арктангенс) вибіркового коефіцієнта кореляції r :

.

- зростаюча непарна функція: z (- r ) = - z ( r ) .

Розподіл ймовірностей значень наближається (Тим більше точно, чим більше обсяг вибірки n ) нормальним розподілом ймовірностей з параметрами:

і.

Статистика має асимптотичний стандартний нормальний розподіл.

асимптотично точний довірчий інтервал надійності для нормованого відхилення z :

,

де - квантиль рівня розподілу, тобто корінь рівняння.

Довірчий інтервал для математичного очікування:

.

Величиною у вираженні можна знехтувати, приймаючи до уваги, що вона при їсти нескінченно мала більш високого порядку в порівнянні з.

Довірчий інтервал для гіперболічного арктангенс коефіцієнта кореляції:

.

Рішення щодо даного подвійного нерівності призводить до шуканого довірчого інтервалу для коефіцієнта кореляції:

,

з кордонами, обумовленими як значення гіперболічного тангенса для значень, рівних відповідно та.

Функція задає перетворення, зворотне-перетворенню Фішера. Отже,.

Етапи визначення ДІ для коефіцієнта кореляції

- знаходиться вибірковий коефіцієнт кореляції r

- виконується пряме перетворення Фішера значення r :

- вибирається квантиль, виходячи з умови;

- обчислюються значення і;

- за допомогою зворотного перетворення Фішера знаходяться межі ДІ:

і.

Довірчі інтервали для коефіцієнтів регресії

Їх побудова здійснюється відповідно до загальної схемою. При цьому використовуються статистики:

;,

мають розподіл Стьюдента з числом ступенів свободи, рівному.

;

,

де - корінь рівняння.

Багатовимірна кореляційна модель

Передбачається, що спільне розподіл аналізованих випадкових змінних (ознак) підпорядковане h -мірному нормальному закону.

Типові завдання

ВЁ визначення тісноти зв'язку між деякими змінними при фіксуванні або виключення впливу інших змінних;

ВЁ визначення тісноти зв'язку однієї з розглянутих змінних з сукупністю всіх інших змінних, включених в аналіз.

Кореляційна матриця

Початковий етап багатовимірного кореляційного аналізу кількісних ознак полягає в оцінці (наближен...ня) на основі вибіркових даних матриці

,

елементи якої - парні коефіцієнти кореляції змінних.

Вибіркова кореляційна матриця

В якості статистичного аналога кореляційної матриці приймається матриця

,


тут - вибіркові парні коефіцієнти кореляції змінних.

Властивість кореляційних матриць

Матриці, q h симетричні відносно головної діагоналі.

Вся наявна для аналізу статистична інформація про залежності між випадковими величинами міститься в вибіркової кореляційної матриці.

Однак розкриття різноманіття взаємозв'язків даних змінних безпосередньо по їх парним коефіцієнтам кореляції неможливо. Для проведення дослідження при вирішенні зазначених типових завдань необхідно обчислювати також приватні та множинні коефіцієнти кореляції, що представляють собою певні дійсні функції матриці.

Приватний коефіцієнт кореляції

,

де - мінор елемента матриці, тобто визначник матриці, що виходить з кореляційної матриці видаленням-го рядка і-го стовпця.


Властивості приватного коефіцієнта кореляції

має всі властивості парного коефіцієнта кореляції, тому є коефіцієнтом кореляції для їх умовного двовимірного розподілу. На відміну від парного коефіцієнта кореляції, на величині якого позначається не тільки вплив змінних один на одного, але і вплив інших змінних, приватний коефіцієнт кореляції дозволяє характеризувати тісноту зв'язку між ознаками в В«ЧистомуВ» вигляді, виключаючи при аналізі залежності вплив інших змінних. Якщо парний коефіцієнт кореляції більше відповідного приватного коефіцієнта, то можна зробити висновок, що решта розглядаються змінні підсилюють взаємозв'язок між досліджуваними величинами. Зменшення значення парного коефіцієнта кореляції, у порівнянні з відповідальним йому приватним коефіцієнтом кореляції, свідчить про ослаблення зв'язку між досліджуваними величинами в результаті впливу інших змінних.

Вибірковий приватний коефіцієнт кореляції

Точкова оцінка визначається за формулою:

,


тут - мінор елемента вибіркової кореляційної матриці.

У разі тривимірної кореляційної моделі для змінних знаходяться три приватних коефіцієнта кореляції:

;

;

.

називається приватним коефіцієнтом детермінації.

Величина є частка дисперсії змінної, обумовлена ​​варіацією при фіксованих інших розглянутих змінних.

Множинний коефіцієнт кореляції

Мірою тісноти лінійної взаємозв'язку між змінною і сукупністю інших змінних служить множинний коефіцієнт кореляції:

,


Де - Визначник матриці;

- мінор-го елемента головної діагоналі матриці.

Якщо, то множинний коефіцієнт кореляції збігається з абсолютним значенням парного коефіцієнта кореляції, тобто є узагальнення.

За величиною множинного коефіцієнта кореляції робиться висновок про тісноту, але не про направлення взаємозв'язку.

Властивості множинного коефіцієнта кореляції

- Чисельне значення множинного коефіцієнта кореляції укладено між нулем і одиницею:

.

- Якщо, то змінна пов'язана з іншими розглянутими випадковими величинами лінійної функціональною залежністю.

Наприклад, для тривимірної кореляційної моделі, якщо, то точки розташовані в площині регресії на.

- Якщо, то випадкова величина стохастично незалежна від інших змінних, що входять в аналіз.

Зокрема, якщо, то одномірна випадкова величина і двовимірна випадкова величина є незалежними (у силу нормальності їх спільного розподілу).

- Множинний коефіцієнт кореляції не зменшується при введенні в модель додаткових ознак і не збільшується при виключенні окремих ознак із моделі.

- За величиною множинний коефіцієнт кореляції змінної не менше абсолютної величини приватного коефіцієнта кореляції даної і будь іншої змінної:

.

Вибірковий множинний коефіцієнт кореляції

В якості точкової оцінки приймається

.

де - мінор-го елемента головної діагоналі вибіркової кореляційної матриці.

У разі тривимірної кореляційної моделі для

;

;

.


I. наступними параметрами:

;;

;;

.


;

.

II.

:

.

вигляді:

,


регресії.

Для

;;

;.

Відповідна їй формулами:

;;;

;;;

;;.


а) для

б) для


-

-

-

-

і.