Главная > Экономико-математическое моделирование > Методи дискримінантного аналізу
Методи дискримінантного аналізу25-01-2012, 11:48. Разместил: tester2 |
Зміст Введення 1. Дискримінантні функції та їх геометрична інтерпретація 2. Розрахунок коефіцієнтів дискримінантної функції 3. Класифікація при наявності двох навчальних вибірок 4. Класифікація при наявності k повчальних вибірок 5. Взаємозв'язок між дискримінантного змінними і дискримінантної функції Висновок Список використаної літератури Введення
Д u скр u м u нантний аналіз - це розділ математичної статистики, змістом якого є розробка методів рішення задач розрізнення (дискримінації) об'єктів спостереження за певними ознаками. Наприклад, розбиття сукупності підприємств на декілька однорідних груп за значеннями яких показників виробничо-господарської діяльності. Методи дискримінантного аналізу знаходять застосування в різних областях: медицині, соціології, психології, економіці і т.д. При спостереженні великих статистичних сукупностей часто з'являється необхідність розділити неоднорідну сукупність на однорідні групи (класи). Таке розчленовування надалі при проведенні статистичного аналізу дає кращі результати моделювання залежностей між окремими ознаками. Дискримінантний аналіз виявляється дуже зручним і при обробці результатів тестування окремих осіб. Наприклад, при виборі кандидатів на певну посаду можна всіх опитуваних претендентів розділити на дві групи: В«підходитьВ» і В«не підходить В». Можна привести ще один приклад застосування дискримінантного аналізу в економіці. Для оцінки фінансового стану своїх клієнтів при видачі їм кредиту банк класифікує їх на надійних і не надійних по ряду ознак. Таким чином, в тих випадках, коли виникає необхідність віднесення того або іншого об'єкта до одному з реально існуючих або виділених певним способом класів, можна скористатися дискримінантного аналізу. Апарат дискримінантного аналізу розроблявся багатьма вченими-фахівцями, починаючи з кінця 50-х років ХХ ст. Дискримінантний аналіз, як і іншими методами багатовимірної статистики, займалися П.Ч. Махаланобіс, Р. Фішер, Г.Хотеллінг і інші видатні вчені. Всі процедури дискримінантного аналізу можна розбити на дві групи і розглядати їх як абсолютно самостійні методи. Перша група процедур дозволяє інтерпретувати відмінності між існуючими класами, друга - проводити класифікацію нових об'єктів у тих випадках, коли невідомо заздалегідь, до якого з існуючих класів вони належать. Нехай є безліч одиниць спостереження - генеральна сукупність. Кожна одиниця спостереження характеризується декількома ознаками (змінними) - значення j -й змінної у i -го об'єкта i = 1, ... N; j = 1, ... p. Припустимо, що всі безліч об'єктів розбито на декілька підмножин (два і більше). З кожної підмножини взята вибірка обсягом , де k - номер підмножини (класи), k = 1, ... , Q . Ознаки, які використовуються для того, щоб відрізняти один клас (підмножина) від іншого, називаються дискримінантного змінними. Кожна з цих змінних повинна вимірюватися або по інтервального шкалою, або за шкалою відносин. Інтервальна шкала дозволяє кількісно описати відмінності між властивостями об'єктів. Для завдання шкали встановлюються довільна точка відліку і одиниця виміру. Прикладами таких шкал є календарний час, шкали температур і т. п. В якості оцінки положення центру використовуються середня величина, мода і медіана. Шкала відносин - окремий випадок інтервального шкали. Вона дозволяє співвіднести кількісні характеристики небудь властивості в різних об'єктів, наприклад, стаж роботи, заробітна плата, величина податку. Теоретично число дискримінантних змінних не обмежена, але на практиці їх вибір повинен здійснюватися на підставі логічного аналізу вихідної інформації і одного з критеріїв, про який мова піде трохи нижче. Число об'єктів спостереження повинне перевищувати число дискримінантних змінних, як мінімум, на два, тобто р < N . дискримінантного змінні повинні бути лінійно незалежними. Ще одним припущенням при дискримінантному аналізі є нормальність закону розподілу багатовимірної величини, тобто кожна з дискримінантних змінних всередині кожного з розглянутих класів повинна бути підпорядкована нормальному закону розподілу. У разі, коли реальна картина у вибіркових сукупностях відрізняється від висунутих передумов, слід вирішувати питання про доцільність використання процедур дискримінантного аналізу для класифікації нових спостережень, так як в цьому випадку утрудняються розрахунки кожного критерію класифікації. 1. Дискримінантні функції та їх геометрична інтерпретація
Перед тим як приступити до розгляду алгоритму дискримінантного аналізу, звернемося до його геометричної інтерпретації. На рис. 1 зображені об'єкти, що належать двом різним множинам М 1 і М 2 .
Рис.1 Геометрична інтерпретація дискримінантної функції та дискримінантних змінних Кожен об'єкт характеризується в цьому випадку двома змінними та . Якщо розглядати проекції об'єктів (точок) на кожну вісь, то ці множини перетинаються, тобто по кожній змінної окремо деякі об'єкти обох множин мають подібні характеристики. Щоб найкращим чином розділити два розглянутих безлічі, потрібно побудувати відповідну лінійну комбінацію змінних та . Для двовимірного простору ця задача зводиться до визначення нової системи координат. Причому нові осі L та З повинні бути розташовані таким чином, щоб проекції об'єктів, що належать різним множинам на вісь L , були максимально розділені. Вісь С перпендикулярна осі L та розділяє два В«хмариВ» точок найкращим чином, Т.е. щоб безлічі виявилися по різні сторони від цієї прямої. При цьому ймовірність помилки класифікації повинна бути мінімальною. Сформульовані умови повинні бути враховані при визначенні коефіцієнтів і наступної функції: F (x) = + (1) Функція F (x) називається канонічної дискримінантної функцією, а величини та - Дискримінантний змінними. Позначимо - середнє значення j -го ознаки у об'єктів i -го безлічі (Класу). Тоді для безлічі М 1 середнє значення функції (x) буде дорівнює: (x) = +, (2) Для безлічі М 2 середнє значення функції дорівнює: (x) = +, (3) Геометрична інтерпретація цих функцій - дві паралельні прямі, що проходять через центри класів (множин) (рис.2).
Рис. 2. Центри поділюваних множин і константа дискримінації дискримінантного функція може бути як лінійною, так і нелінійною. Вибір її виду залежить від геометричного розташування поділюваних класів в просторі дискримінантних змінних. Для спрощення викладок надалі розглядається лінійна дискримінантна функція.
2. Розрахунок коефіцієнтів дискримінантної функції
Коефіцієнти дискримінантної функції визначаються таким чином, щоб (x) і (x) якомога більше різнилися між собою, тобто щоб для двох множин (Класів) було максимальним вираз <...p>(4) Тоді можна записати наступне: (5) де k-номер групи; p - Число змінних, що характеризують кожне спостереження. Позначимо дискримінантної функції (x) як ( k - номер групи, t - номер спостереження в групі). Внутригрупповая варіація може бути виміряна сумою квадратів відхилень: (6) За обом групам це буде виглядати наступним чином: (7) В матричній формі цей вираз може бути записано так: (8) де А - вектор коефіцієнтів дискримінантної функції; - транспонована матриця відхилень спостережуваних значень вихідних змінних від їхніх середніх величин в першій групі (9) - аналогічна матриця для другої групи. Об'єднана коваріаційна матриця визначається так: (10) Отже вираз (8) дає оцінку внутрішньогрупової варіації і його можна записати у вигляді: (11) міжгрупових варіація може бути виміряна як (12) При знаходженні коефіцієнтів дискримінантної функції слід виходити з того, що для розглянутих об'єктів внутригрупповая варіація повинна бути мінімальною, а межгрупповая варіація - максимальної. У цьому випадку ми досягнемо найкращого поділу двох груп, тобто необхідно, щоб величина F була максимальної: (13) В точці, де функція F досягає максимуму, приватні похідні по будуть дорівнюють нулю. Якщо обчислити приватні похідні (14) і прирівняти їх нулю, то після перетворень отримаємо вираз: (15) З цієї формули і визначається вектор коефіцієнтів дискримінантної функції (А) Отримані значення коефіцієнтів підставляють у формулу (1) і для кожного об'єкта в обох групах (множинах) обчислюють дискримінантні функції, потім знаходять середнє значення для кожної групи. Таким чином, кожне i - е спостереження, яке спочатку описувалося m змінними, буде як би переміщене в одномірне простір, тобто йому буде відповідати одне значення дискримінантної функції, отже, розмірність ознакового простору знижується. 3. Класифікація за наявності двох навчальних вибірок
Перед тим як приступити безпосередньо до процедури класифікації, потрібно визначити кордон, що розділяє в окремому випадку дві розглянуті групи. Такий величиною може бути значення функції, рівновіддалених від і, тобто (16) Величина З називається константою дискримінації. На рис.1 видно, що об'єкти, розташовані над прямої f (x) = + + ... + = C , Знаходяться ближче до центру безлічі і, отже, можуть бути віднесені до першої групи, а об'єкти, розташовані нижче цієї прямої, ближче до центру другого множин, тобто відносяться до другої групи. Якщо межа між групами обрана так, як сказано вище, то сумарна ймовірність помилкової класифікації мінімальна. Розглянемо приклад використання дискримінантного аналізу для проведення багатомірної класифікації об'єктів. При цьому в якості навчальних будемо використовувати спочатку дві вибірки, належать двом класам, а потім узагальнимо алгоритм класифікації на випадок k класів. Приклад 1. Є дані по двох групах промислових підприємств машинобудівного комплексу: -фондовіддача основних виробничих фондів, руб.; -витрати на гривню виробленої продукції, коп.; -витрати на сировину і матеріалів на один рубль продукції, коп. Номер Х 1 Х 2 Х З підприємства 1 0,50 94,0 8,50 l-я група 2 0,67 75,4 8,79 3 0,68 85,2 9,10 4 0,55 98,8 8,47 5 1,5281,5 4,95 2-я група 6 1,20 93,8 6,95 7 1,4686,5 4,70Необхідно провести класифікацію чотирьох нових підприємств, що мають наступні значення вихідних змінних: l-е підприємство: = 1,07, = 93,5, = 5,30, 2-е підприємство: = 0,99, = 84,0, = 4,85, третій підприємство: = 0,70, = 76,8, = 3,50, 4-е підприємство: = 1,24, = 88,0, = 4,95. Для зручності запишемо значення вихідних змінних для кожної групи підприємств у вигляді матриць і: (17) Розрахуємо середнє значення кожної змінної в окремих групах для визначення положення центрів цих груп: I гр. = 0,60, = 88,4, = 8,72 II гр. = 1,39, = 87,3, = 5,53. дискримінантного функція f (x) в даному випадку має вигляд: f (х) = + + (18) Коефіцієнти , І обчислюються за формулою: A = (-), (19) де і - вектори середніх в першій і другій групах; А - вектор коефіцієнтів; - матриця, зворотна спільної ковариационной матриці. Для визначення спільної ковариационной матриці потрібно розрахувати матриці і. Кожен елемент цих матриць являє собою різницю між відповідним значенням вихідної змінної та середнім значенням цієї змінної в даній групі ( k - номер групи):
Тоді спільна коваріаційна матриця буде дорівнює: , (20) де , - число об'єктів l-й і 2-ї групи; (21) Зворотній матриця буде дорівнює: . (22) Отcюда знаходимо вектор коефіцієнтів дискримінантної функції по формулі: (23) тобто = -185,03, = 1,84, = 4,92. Підставимо отримані значення коефіцієнтів у формулу (18) і розрахуємо значення дискримінантної функції для кожного об'єкта: (24) Тоді константа дискримінації С буде дорівнювати: З = (94,4238-70,0138) = 12,205. Після отримання константи дискримінації можна перевірити правильність розподілу об'єктів у вже існуючих двох класах, а також провести класифікацію нових об'єктів. Розглянемо, наприклад, об'єкти з номерами 1, 2, З, 4. Для того щоб віднести ці об'єкти до одному з двох множин, розрахуємо для них значення дискримінантних функцій (За трьома змінним): = -185,03 Х 1,07 + 1,84 х 93,5 + 4,92 х 5,30 = 0,1339, = -185,03 х 0,99 + 1,84 х 84,0 + 4,92 х 4,85 = -4,7577, = -185,03 х 0,70 + 1,84 х 76,8 + 4,92 х 3,50 = 29,0110, = -185,03 х 1,24 + 1,84 х 88,0 + 4,92 х 4,95 = -43,1632. Таким чином, об'єкти 1, 2 і 4 ставляться до другого класу, а об'єкт 3 відноситься до першого класу, так як <с, <с, > с, <с. 4. Класифікація за наявності k навчальних вибірок
При необхідності можна проводити розбиття множини об'єктів на k класів (При k > 2). У цьому випадку потрібно розрахувати k дискримінантних функцій, так як класи будуть відокремлюватися один від одного індивідуальними поділяючими поверхнями. На рис. 3 показаний випадок з трьома множинами і трьома дискримінантного змінними:
Рис.3 Три класи об'єктів і розділяють їх прямі - перша, - друга, - третя дискримінантні функції. Прикла...д 2. Розглянемо випадок, коли існує три класи (безлічі) об'єктів. Для цього до двох класам з попереднього прикладу додамо ще один. У цьому випадку будемо мати вже три матриці вихідних даних: (25) Якщо в процесі дискримінації використовуються всі чотири змінні (, , , ) то для кожного класу дискримінантні функції мають вигляд: (26) Визначимо тепер, до якого класу можна віднести кожне з чотирьох спостережень, наведених в табл.2: Таблиця 2 - Вихідні дані Номер спостереження
1 1,07 93,5 5,30 5385 2 0,99 84,0 4,85 5225 3 0,70 76,8 3,50 5190 4 1,24 88,0 4,95 6280 Підставимо відповідні значення змінних,,, в вираз (26) і обчислимо потім різниці: - = -20792,082 +31856,41 = 11064,3280, - = -20792,082 +40016,428 = 19224,3460. Отже, спостереження 1 в табл.2 відноситься до першого класу. Аналогічні розрахунки показують, що і інші три спостереження слід віднести теж до першого класу. Щоб показати вплив числа дискримінантних змінних на результати класифікації, змінимо умову останнього прикладу. Будемо використовувати для розрахунку дискримінантних функцій тільки три змінні:,,. У цьому випадку вирази для діскрімінантниx функцій будуть мати вигляд: (27) Підставивши в ці вираження значення вихідних змінних для класифікуються об'єктів, неважко переконатися, що всі вони потрапляють в третій клас, так як - = -26,870, - = -37,68, - = -10,809. Таким чином, ми бачимо, що зміна числа переменниx сильно впливає на результат дискримінантного аналізу. Щоб судити про доцільності включення (видалення) дискримінантної змінної, зазвичай використовують спеціальні статистичні критерії, що дозволяють оцінити значимість погіршення або поліпшення розбиття після включення (видалення) кожної з відібраних змінних. 5. Взаємозв'язок між дискримінантного змінними і дискримінантної функції
Для оцінки внеску окремої змінної в значення дискримінантної функції доцільно користуватися стандартизованими коефіцієнтами дискримінантної функції. Стандартизовані коефіцієнти можна розрахувати двома шляхами: В· стандартизовать значення вихідних змінних таким чином, щоб їх середні значення були дорівнюють нулю, а 'дисперсії - одиниці; В· обчислити стандартизовані коефіцієнти виходячи зі значень коефіцієнтів у нестандартній формі: В· (28) де р - загальне число вихідних змінних, т - число груп, - елементи матриці коваріацій: (29) де i - номер спостереження, j - номер змінної, k - номер класу, - кількість об'єктів у k - м класі. Стандартизовані коефіцієнти застосовують у тих випадках, коли потрібно визначити, яка з використовуваних змінних вносить найбільший вклад в величину дискримінантної функції. У прикладі з двома класами, розглянутому вище, дискримінантна функція мала вигляд: f = -185,03 Х 1 + 1,84 Х 2 + 4,92 Х з . Отже, найбільший внесок у величину дискримінантної функції вносить змінна X 1 . Визначимо значення стандартизованих коефіцієнтів і запишемо нове значення дискримінантної функції: (30) де = Стандартизовані коефіцієнти дискримінантної функції теж показують визначальний вплив першої змінної на величину дискримінантної функції. Крім визначення внеску кожної вихідної змінної в дискримінантної функції, можна проаналізувати і ступінь кореляційної залежності між ними. Для оцінки тісноти зв'язку між окремими змінними і дискримінантної функції служать коефіцієнти кореляції, які називаються структурними коефіцієнтами. За величиною структурних коефіцієнтів судять про зв'язки між змінними та дискримінантної функції. Структурні коефіцієнти дозволяють також у разі необхідності привласнити ім'я кожної функції. Вони можуть бути розраховані в цілому по всій сукупності об'єктів ( R ) та для кожного класу окремо ( R ). Покажемо на прикладі 1 розрахунок структурних коефіцієнтів в цілому для трьох класів. Вихідні дані для розрахунку коефіцієнтів представлені в табл. 3. Обчислені структурні коефіцієнти ( R f ) мають наступні значення: R x 1 f < i> = 0,650 R X 2 f = -0,576 R ХЗ f = -0,506 R x 4 f = -0,951 R x 1 jl < i> = -0,036 R x 2 j 1 = 0,486 R хз jl = -0,211 R x 4 j 1 = 0,217 R x 1 f < i> 2 = -0,728 R x 2 f 2 = 0,878 R ХЗ f 2 = 0,511 R x 4 f 2 = -0,998 R x 1 fJ < i> = -0,713 R х1 J З = 0,258 R хз fJ = -0,122 R x 4 fJ = -0,998. Таблиця 3 - Вихідні дані Номер Х1 Х 2 Х З Х 4
спостереження 1 0,50 94,0 8,50 6707 -31973,089 2 0,67 75,4 8,79 5037 -18122,238 3 0,68 85,2 9,10 3695 -6930,930 4 0,55 98,8 8,47 6815 -32812,109 5 1,52 81,5 4,95 3211 -13434,229 6 1,20 93,8 6,95 2890 -10812,723 7 1,46 86,5 4,70 2935 -11139,514 8 1,70 ... 80,0 4,50 3510 -14272,295 9 1,65 85,0 4,80 2900 -9573,076 10 1,49 78,5 4,10 2850 -9348,104Якщо а від Різні функцією, тобто та 2, ... класу. Висновок Основна відмінність Підставою дляОсновними Існують різні критерії множин. У цьому випадку Лінійна Якщо утруднено. Список використаної літератури 1. Багатомірний 2. Економетрика Алмати. 2007р. 3. Багатовимірні статистичні методи. Москва. 2003р. 4. Економетрика. Москва. 2005р. 5. Економетрика. Москва. 2004р. |