Кореляційний аналіз
Кореляційний аналіз - математико-статистичний метод виявлення взаємозалежності компонент багатовимірної випадкової величини та оцінки тісноти їх зв'язку.
Передумови кореляційного аналізу
При побудові кореляційних моделей виходять з виконання умов випадковості результатів спостережень і нормальності закону розподілу аналізованої h -мірної генеральної сукупності, що забезпечує лінійний характер досліджуваної залежності між спостережуваними ознаками і дозволяє використовувати в якості показників сили стохастичною (ймовірнісної) зв'язку парні, приватні та множинні коефіцієнти кореляції і детермінації.
Поняття "кореляційна залежність "
У статистичних дослідженнях виділяють два види зв'язку між випадковими величинами: функціональну і стохастичну.
Залежність ознак називається функціональної, якщо кожне спостережуване значення залежної змінної однозначно визначається по отриманим в тому ж самому спостереженні значенням решти змінних згідно деякому правилу: , Єдиному для всіх спостережень.
стохастичних залежностей змінної від змінних називається таке відношення між випадковими величинами, при якому кожній реалізації випадкового вектора однозначно відповідає деяке умовне розподіл ймовірностей випадкової величини, при цьому, по крайней мірою, двом можливим різним реалізаціям відповідають неоднакові розподілу.
На відміну від функціональної залежності, коли кожному набору значень пояснюючих змінних відповідає тільки одне значення пояснюється змінної, при стохастичної залежності будь допустимої сукупності значень відповідає безліч можливих значень залежної змінної.
кореляційної залежності змінної від змінних називається функціональна залежність умовного математичним сподівання випадкової величини від реалізації випадкового вектора.
Кореляційна залежність є лише однією з приватних форм стохастичною зв'язку між випадковими величинами і не вичерпує в загальному випадку весь обсяг поняття "стохастична залежність".
Функція, встановлює залежність умовного математичного очікування від можливих значень випадкових величин, називається функцією регресії випадкової величини на випадковий вектор.
Якщо функція регресії представима як лінійна комбінації своїх аргументів:
,
де - деякі константи, то відповідна кореляційна залежність називається лінійною.
Аналітичне завдання кореляційної залежності в вигляді
називається рівнянням регресії випадкової величини на випадковий вектор.
Двовимірна кореляційна модель
Аналізується кореляційна залежність між двома ознаками,.
Передбачається, що розподіл ймовірностей двовимірної випадкової величини підпорядковане законом Гауса, тобто щільність спільного розподілу, визначається формулою:
містила п'ять параметрів:
- математичне очікування;
- математичне очікування;
- дисперсія;
- дисперсія;
- коефіцієнт кореляції між, .
Коефіцієнт кореляції як міра тісноти стохастичною зв'язку між двома випадковими величинами
З умови нормальності спільного розподілу ознак, безпосередньо випливає, що розподіл кожного їх них також підпорядковане закону Гаусса з відповідними параметрами:
;
.
Якщо, то з виразів, що задають двовимірну та одномірні щільності розподілу ймовірностей ,, Випливає, що, тобто , Є незалежні між собою випадкові величини.
Для випадкових величин,, спільний розподіл яких є нормальним, поняття "некоррелированности" і "Стохастична незалежність" еквівалентні.
Таким чином, для розв'язуваної задачі коефіцієнт кореляції може служити мірою сили стохастичною взаємозв'язку розглянутих випадкових величин.
Поза рамками кореляційної моделі рівність нулю коефіцієнта кореляції вказує лише на некоррелированности вихідних змінних, але не підтверджує відсутність іншої форми стохастичної залежності.
Коефіцієнт кореляції не має розмірності та, отже, його можна використовувати при аналізі залежності ознак, що розрізняються по мірним шкалами.
Значення за абсолютній величині не перевершує одиниці.
Якщо, лінійна зв'язок між змінними та відсутня.
Значення вказує на наявність функціональної лінійної залежності між ними.
У міру наближення до одиниці умовні дисперсії прагнуть до нуля, що свідчить про менший розсіянні значень змінних, щодо відповідних ліній регресії і про більш тісному зв'язку між даними змінними.
Позитивний знак коефіцієнта кореляції означає, що прямі регресії мають в координатній площині позитивний тангенс кута нахилу, із збільшенням (або зменшенням) значення будь-якої з змінних, пропорційно в середньому зростає (відповідно убуває) значення іншої змінної.
Негативний знак коефіцієнта кореляції вказує на зворотну тенденцію.
Рівняння лінійної парної регресії
Функції регресії на і на знаходяться за допомогою формул, що визначають умовні математичні очікування:
,
При цьому умовні щільності розподілу ймовірностей випадкових величин, представляються у вигляді відносин відомих безумовних густин розподілу:
Подальше інтегрування функцій, по x , відповідно по y , безпосередньо дає рівняння регресії на, а також рівняння регресії на:
;
,
;,
де
- коефіцієнт регресії на
- коефіцієнт регресії на.
Лінійний характер кореляційної залежності між спільно нормально розподіленими випадковими величинами проявляється в тому, що зі зміною однієї величини пропорційно змінюється умовне математичне сподівання іншої величини. Графіки функцій регресії (іменовані лініями регресії) представляють собою прямі.
У разі некоррелированности,, тобто при, прямі регресії на і на паралельні відповідно координатним осям і.
Парний коефіцієнт детермінації
Ступінь розсіювання значень (або ) Щодо лінії регресії на (або на) характеризують (в середньому) умовні дисперсії:
Розрахункові формули для і знаходяться подібно до того, як визначалися функції регресії на і на.
У підсумку,
.
Квадрат коефіцієнта кореляції називається парним коефіцієнтом детермінації.
З наведених виразів для умовних дисперсій випливає, що величина вказує частку дисперсії однієї випадкової величини, обумовлену варіацією інший випадкової величини.
Емпіричні характеристики кореляційної залежності
У практиці статистичних досліджень параметри спільного розподілу ймовірностей випадкових величин, включених в аналіз, як правило, невідомі, і тісноту зв'язку між змінними оцінюють по статистичним даними і вибірковим аналогам кореляційних характеристик.
З цією метою в двовимірному кореляційному аналізі використовують "поле кореляції ", будують кореляційну таблицю, розраховують точкові оцінки параметрів кореляційної моделі, перевіряють значущість параметрів зв'язку і знаходять інтервальні оцінки для значущих параметрів, оцінюють рівняння регресії.
Корреляционное поле
Кореляційним полем називається сукупність нанесених на координатну площину реалізацій випадкового вектора, тобто вибіркових точок.
За розташуванням точок кореляційного поля можна скласти попередню думку про характерні особливості залежно випадкових величин (Наприклад, про те, що значення будь-якої з цих величин в середньому зростає або убуває при зростанні значення іншої величини).
Найбільш точну інформацію про напрямку і силі зв'язку між величинами, дають коефіцієнт кореляції та рівняння регресії.
Кореляційна таблиця
У понятійному сенсі - являє собою узагальнення поняття В«варіаційний ряд В», з прикладної точки зору - є форм...