кластерного АНАЛІЗ В ЗАДАЧАХ СОЦІАЛЬНО-ЕКОНОМІЧНОГО ПРОГНОЗУВАННЯ
Введення в кластерний аналіз.
При аналізі та прогнозуванні соціально-економічних явищ дослідник досить часто стикається з багатомірністю їх опису. Це відбувається при вирішенні задачі сегментування ринку, побудові типології країн за досить великому числу показників, прогнозування кон'юнктури ринку окремих товарів, вивченні та прогнозуванні економічної депресії і багатьох інших проблем.
Методи багатовимірного аналізу - найбільш дієвий кількісний інструмент дослідження соціально-економічних процесів, описуваних більшим числом характеристик. До них відносяться кластерний аналіз, таксономія, розпізнавання образів, факторний аналіз.
Кластерний аналіз найбільш яскраво відбиває риси багатомірного аналізу в класифікації, факторний аналіз - у дослідженні зв'язку.
Іноді підхід кластерного аналізу називають в літературі чисельної таксономією, чисельної класифікацією, розпізнаванням з самонавчанням і т.д.
Перше застосування кластерний аналіз знайшов в соціології. Назва кластерний аналіз походить від англійського слова cluster - гроно, скупчення. Вперше в 1939 був визначений предмет кластерного аналізу та зроблено його опис дослідником Тріон. Головне призначення кластерного аналізу - розбивка безлічі досліджуваних об'єктів і ознак на однорідні у відповідному розумінні групи або кластери. Це означає, що вирішується завдання класифікації даних і виявлення відповідної структури в ній. Методи кластерного аналізу можна застосовувати в самих різних випадках, навіть у тих випадках, коли мова йде про простий угрупованню, в якій все зводиться до утворення груп за кількісним подібністю.
Велике гідність кластерного аналізу в тому, що він дозволяє проводити розбиття об'єктів не по одному параметру, а по цілому набору ознак. Крім того, кластерний аналіз на відміну від більшості математико-статистичних методів не накладає ніяких обмежень на вид розглянутих об'єктів, і дозволяє розглядати безліч вихідних даних практично довільної природи. Це має велике значення, наприклад, для прогнозування кон'юнктури, коли показники мають різноманітний вигляд, що утруднює застосування традиційних економетричних підходів.
Кластерний аналіз дозволяє розглядати досить великий обсяг інформації і різко скорочувати, стискати великі масиви соціально-економічної інформації, робити їх компактними і наочними.
Важливе значення кластерний аналіз має стосовно до совокупностям часових рядів, характеризують економічний розвиток (наприклад, загальногосподарської і товарної кон'юнктури). Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи тимчасових рядів, динаміка яких найбільш схожа.
Кластерний аналіз можна використовувати циклічно. У цьому випадку дослідження проводиться до тих пір, поки не будуть досягнуті необхідні результати. При цьому кожен цикл тут може давати інформацію, яка здатна сильно змінити спрямованість і підходи подальшого застосування кластерного аналізу. Цей процес можна представити системою зі зворотним зв'язком.
В задачах соціально-економічного прогнозування дуже перспективне поєднання кластерного аналізу з іншими кількісними методами (наприклад, з регресійний аналізом).
Як і будь інший метод, кластерний аналіз має певні недоліки і обмеження: Зокрема, склад і кількість кластерів залежить від обираних критеріїв розбиття. При зведенні вихідного масиву даних до більш компактному увазі можуть виникати певні спотворення, а також можуть губитися індивідуальні риси окремих об'єктів за рахунок заміни їх характеристиками узагальнених значень параметрів кластера. При проведенні класифікації об'єктів ігнорується дуже часто можливість відсутності в розглянутій сукупності будь-яких значень кластерів.
У кластерному аналізі вважається, що:
а) обрані характеристики допускають в принципі бажана розбивка на кластери;
б) одиниці вимірювання (масштаб) обрані правильно.
Вибір масштабу відіграє велику роль. Як правило, дані нормалізують вирахуванням середнього й поділом на стандартне отклонененіе, так що дисперсія виявляється рівною одиниці.
Завдання кластерного аналізу.
Задача кластерного аналізу полягає в тому, щоб на підставі даних, що містяться у безлічі Х, розбити безліч об'єктів G на m (m - ціле) кластерів (підмножин) Q1, Q2, ..., Qm, так, щоб кожен об'єкт Gj належав одному і тільки одному підмножині розбиття і щоб об'єкти, що належать одному і тому ж кластеру, були подібними, у той час, як об'єкти, що належать різним кластерам були різнорідними.
Наприклад, нехай G включає n країн, кожна з яких характеризується ВНП на душу населення (F1), числом М автомашин на 1 тисячу чоловік (F2), душовим споживанням електроенергії (F3), душовим споживанням стали (F4) і т.д. Тоді Х1 (вектор вимірів) являє собою набір зазначених характеристик для першої країни, Х2 - для другий, Х3 для третьої, і т.д. Завдання полягає в тому, щоб розбити країни за рівнем розвитку.
Рішенням завдання кластерного аналізу є розбиття, що задовольняють деякому критерію оптимальності. Цей критерій може являти собою деякий функціонал, виражає рівні бажаності різних розбиттів і угруповань, який називають цільовою функцією. Наприклад, в якості цільової функції може бути взята внутригрупповая сума квадратів відхилення:
де xj - являє собою виміру j-го об'єкта.
Для рішення задачі кластерного аналізу необхідно визначити поняття подібності й різнорідності.
Зрозуміло те, що об'єкти i-ий і j-ий потрапляли б в один кластер, коли відстань (Віддаленість) між точками Хi і Хj було б досить маленьким і потрапляли б у різні кластери, коли ця відстань була б достатньо великим. Таким чином, попадання в один чи різні кластери об'єктів визначається поняттям відстані між Хi і Хj з Ер, де Ер - р-мірне евклідів простір. Ненегативна функція d (Хi, Хj) називається функцією відстані (Метрикою), якщо:
а) d (Хi, Хj) Ві 0, для всіх Хi і Хj з Ер
б) d (Хi, Хj) = 0, тоді і тільки тоді, коли Хi = Хj
в) d (Хi, Хj) = d (Хj, Хi)
г) d (Хi, Хj) ВЈ d (Хi, Хk) + d (Хk, Хj), де Хj; Хi і Хk - будь три вектори з Ер.
Значення d (Хi, Хj) для Хi і Хj називається відстанню між Хi і Хj і еквівалентно відстані між Gi і Gj відповідно обраним характеристикам (F1, F2, F3, ..., Fр).
Найбільш часто вживаються наступні функції відстаней:
1. Евклідів відстань d2 (Хi, Хj) =
2. l1 - норма d1 (Хi, Хj) =
3. Сюпремум - норма d ВҐ (Хi, Хj) = sup
k = 1, 2, ..., р
4. lp - норма dр (Хi, Хj) =
Евклідова метрика є найбільш популярною. Метрика l1 найбільш легка для обчислень. Сюпремум-норма легко вважається і включає в себе процедуру упорядкування, а lp - норма охоплює функції відстаней 1, 2, 3,.
Нехай n вимірювань Х1, Х2, ..., Хn представлені у вигляді матриці даних розміром p 'n:
Тоді відстань між парами векторів d (Хi, Хj) можуть бути представлені у вигляді симетричної матриці відстаней:
Поняттям, протилежним відстані, є поняття подібності між об'єктами Gi. і Gj. Ненегативна речова функція S (Хi; Хj) = Sij називається мірою подібності, якщо:
1) 0 ВЈ S (Хi, Хj) <1 для Хi В№ Хj
2) S (Хi, Хi) = 1
3) S (Хi, Хj) = S (Хj, Хi)
Пари значень заходів подібності можна об'єднати в матрицю подібності:
Величину Sij називають коефіцієнтом подібності.
1.3. Методи кластерного аналізу.
Сьогодні існує досить багато методів кластерного аналізу. Зупинимося на деяких з них (нижче наведені методи прийнято називати методами мінімальної дисперсії).
Нехай Х - матриця спостережень: Х = (Х1, Х2, ..., Хu) і квадрат евклідового відстані між Хi і Хj визначається за формулою:
1)...