Главная > Экономико-математическое моделирование > Аналіз рядів розподілу
Аналіз рядів розподілу25-01-2012, 11:48. Разместил: tester5 |
АНАЛІЗ РЯДІВ РОЗПОДІЛУ Зміст Введення 1. Характеристики центру розподілу 1.1 Мода 1.2 Медіана 1.3 Показники диференціації 2. Характеристики варіації 2.1 Абсолютні характеристики варіації 2.1.1 Розрахунок дисперсії способом моментів 2.1.2 Розрахунок дисперсії альтернативного ознаки 2.1.3 міжгрупових дисперсія. Правило додавання дисперсій 2.2 Відносні характеристики варіації 3. Теоретичні криві розподілу 3.1 Нормальний розподіл 3.2 Вирівнювання емпіричного розподілу по кривій нормального розподілу 3.3 Критерії згоди 3.4 Характеристики нерівномірності розподілу Введення Ряд розподілу (тобто впорядковане розподіл одиниць досліджуваної сукупності на групи за певною варьирующему ознакою) характеризує склад, структуру сукупності за певною ознакою. Його будують для того, щоб виявити характер розподілу одиниць сукупності по варьирующему ознакою, визначити закономірності в цьому розподілі. Для аналізу ряду розподілу використовують ряд статистичних характеристик: частотні характеристики; характеристики центру розподілу; характеристики варіації; характеристики нерівномірності розподілу. Частотні характеристики ряду розподілу, а саме, частоти і частості (або інша назва - частка ), Накопичені (або кумулятивні) частоти і частості, абсолютна і відносна щільність розподілу, були розглянуті в темі "Зведення і групування статистичних даних". 1. Характеристики центру розподілу До характеристик центру розподілу відносять середню, моду і медіану. Ці характеристики прийнято також називати структурними середніми, вони визначають вид полігону та гістограми, емпіричного закону розподілу . В якості середньої для характеристики центру розподілу найчастіше використовують середню арифметичну просту або зважену. 1.1 Мода Мода (Мо) - це варіанта, яка найчастіше зустрічається в досліджуваній сукупності. Мода не залежить від крайніх значень варіант і може застосовується для характеристики центру в рядах розподілу з невизначеними межами. У дискретному варіаційному ряду мода визначається візуально і дорівнює варіанті з найбільшою частотою або частості. Дані розподілу робочих за стажем роботи (див. лекцію "Зведення і групування статистичних даних ") показують, що найбільше робочих мають стаж роботи 4 роки, тобто варіанту, що дорівнює 4, є модою ознаки. Мо = 4. В інтервальних рядах розподілу для знаходження моди спочатку по найбільшої частоті визначають модальний інтервал, тобто інтервал, що містить моду, а потім приблизно розраховують її за формулою: , де - нижня межа модального інтервалу; - величина модального інтервалу; - частоти відповідно в попередньому і наступним за модальним інтервалах. Зустрічаються ряди, які мають два моди (бімодальний ряд) або кілька (полімодальний). Розрахуємо моду інтервального ряду розподілу робітників за розміром заробітної плати (див. лекцію "Зведення і групування статистичних даних "). У цьому варіаційному ряду інтервал 900-1000 грн., в який потрапило максимальну кількість робочих (9 чол), є модальним. грн. Отримане значення моди свідчить про те, що в розглянутій сукупності найбільш типовою є заробітна плата 914,29 грн., що вище раніше розрахованої середньої зарплати (870 грн). Для ряду з нерівними інтервалами модальний інтервал визначається по найбільшій щільності розподілу, а в розрахунковій формулі моди замість частот використовують абсолютні щільності розподілу. Для інтервальних варіаційних рядів з рівними інтервалами моду можна наближено визначити графічно. Для цього на гістограмі цього ряду (див. гістограму в лекції "Зведення і групування статистичних даних") вибирають найвищий прямокутник, який і є модальним. Далі праву верхню вершину прямокутника, що передує модальному (частота f mо-1 ), з'єднують з правої верхньої вершиною модального прямокутника (частота f mо ), а ліву верхню вершину цього прямокутника - з лівої верхньої вершиною прямокутника, наступного за модальним (частота f mо +1 ). З точки перетину опускають перпендикуляр на горизонтальну вісь. Підстава перпендикуляра покаже значення моди Мо. Точність визначення залежить від масштабу графіка. 1.2 Медіана Медианой Ме називають таке значення ознаки, яке припадає на середину рангового ряду і ділить його на дві рівні по числу одиниць частини. Таким чином, в ранжируваному ряду розподілу одна половина ряду має значення ознаки, що перевищують медіану, інша - менше медіани. Медіану використовують замість середньої арифметичної, коли крайні варіанти ранжированного ряду (найменша і найбільша) по порівнянні з іншими виявляються надмірно великими або надмірно малими. У дискретному варіаційному ряду, містить непарне число одиниць, медіана дорівнює варіанті ознаки, що має номер : , де N - число одиниць сукупності. У дискретному ряду, що складається з парного числа одиниць сукупності, медіана визначається як середня з варіант, що мають номери і :. У розподілі робітників по стажу роботи медіана дорівнює середній з варіант, що мають у ранжируваному ряду номера 10: 2 = 5 і 10: 2 + 1 = 6. Варіанти п'ятого і шостого ознаки рівні 4 років, таким чином року При обчисленні медіани в інтервальному ряду спочатку знаходять медіанний інтервал, (тобто містить медіану), для чого використовують накопичені частоти або частості. Медіанним є інтервал, накопичена частота якого дорівнює або перевищує половину всього обсягу сукупності. Потім значення медіани розраховується за формулою: , де - нижня межа медіанного інтервалу; - ширина медіанного інтервалу; - накопичена частота інтервалу, що передує медианному; - частота медіанного інтервалу. Розрахуємо медіану ряду розподілу робочих за розміром зарплати (див. лекцію "Зведення і групування статистичних даних "). медіа є інтервал заробітної плати 800-900 грн., оскільки його кумулятивна частота дорівнює 17, що перевищує половину суми всіх частот (). Тоді Ме = 800 +100 грн. Отримане значення говорить про тому, половина робітників мають заробітну плату нижче 875 грн., але це вище середнього її розміру. Для визначення медіани можна замість кумулятивних частот використовувати кумулятивні частості. Медіана, як і мода, не залежить від крайніх значень варіант, тому також застосовується для характеристики центру в рядах розподілу з невизначеними межами. Властивість медіани : сума абсолютних величин відхилень варіант від медіани менше, ніж від будь-якої іншої величини (в тому числі і від середньої арифметичної):
Це властивість медіани використовується на транспорті при проектуванні розташування трамвайних та тролейбусних зупинок, бензоколонок, складальних пунктів і т. д. Приклад. На шосе довжиною 100 км розташовано 10 гаражів. Для проектування будівництва бензоколонки були зібрані дані про число передбачуваних їздець на заправку по кожному гаражу. Таблиця 2 - Дані про кількість їздець на заправку по кожному гаражу. Кілометр шосе, на якому розташований гараж 7 26 28 37 40 46 60 78 86 92 Всього їздець Проектоване число їздець 10 15 5 20 5 25 15 30 10 65 200Потрібно поставити бензоколонку так, щоб загальний пробіг автомашин на заправку був найменшим. Варіант 1. Якщо бензоколонку поставити в середині шосе, тобто на 50-му кілометрі (центр діапазону зміни ознаки), то пробіги з урахуванням числа їздець складуть: а) в одному напрямку: ; б) в протилежному: ; в) загальний пробіг в обидва напрямки:. Варіант 2. Якщо бензоколонку поставити на середній ділянці шосе, визначеному за формулою середньої арифметичної з урахуванням числа їздець:
Тоді пробіги складуть: а) в одному напрямку:
б) в протилежному: ; в) загальний пробіг в обидва напрямки, рівний менше, ніж у першому варіанті на 438,5 км. Варіант 3. Якщо поставити бензоколонку на 78-му кілометрі, що буде відповідати медіані за кількістю їздець (накопичене число їздець для 60 км - 95, для 78 км - 125). Тоді пробіги складуть: а) в одному напрямку:
б) в протилежному: ; в) загальний пробіг:, менше загальних пробігів, розрахованих за попереднім варіантам. Таким чином, медіані відповідає найкращий результат, тобто мінімальний загальний пробіг. Медіану можна визначити графічно, по кумуляти (див. лекцію "Зведення і групування статистичних даних "). Для цього останню ординату, рівну сумі всіх частот або частостей, ділять навпіл. З отриманої точки відновлюють перпендикуляр до перетину з кумулята. Абсциса точки перетину і дає значення медіани. 1.3 Показники диференціаціїЯкщо виникає необхідність вивчити структуру варіаційного ряду більш докладно, обчислюють значення ознаки, аналогічні медіані. Такі значення ознаки, які ділять всі одиниці розподілу на рівні чисельності, називають квантиль, або градієнтами. Квартили і децили - окремі випадки квантилів. квартиль (Q) називають значення ознаки, які ділять сукупність на чотири рівні по числу одиниць частини. Децілі (D) - ознаки, що ділять сукупність на десять рівних частин. Отже, крім медіани, в ряду розподілу є три квартиля і дев'ять децілей. Медіана одночасно є другим квартиль і п'ятим деціль. Розрахунок першого (Q 1 ) і третього (Q 3 ) квартилей аналогічний розрахунку медіани, тільки замість медіанного інтервалу береться для першого квартиля інтервал, в якому знаходиться варіанту, отсекающая Вј чисельності частот, а для третього квартиля - Вѕ чисельності частот: і. Логіка побудови квінтілей і децілей аналогічна. 2. Характеристики варіації Показники варіації характеризує коливання індивідуальних значень ознаки по відношенню до середньому значенню, що не менш важливо, ніж визначення самої середньої. Середня не показує будови сукупності, як розташовуються біля неї варіанти осредняемого ознаки, зосереджені вони поблизу середньої або значно відхиляються від неї. Середня величина ознаки в двох сукупностях може бути однаковою, але в одному випадку всі індивідуальні значення відрізняються від неї мало, а в іншому ці відмінності великі, тобто в одному випадку варіація ознаки мала, а в іншому велика. Це можна показати на такому прикладі. Припустимо, що дві бригади з 3-х чоловік кожна виконують однакову роботу. Кількість деталей, виготовлених за зміну окремими робітниками, склало: в першій бригаді - 95, 100, 105; у другій бригаді - 75, 100, 125. Середня виробіток на одного робітника в бригадах склала ,. Середня вироблення однакова, але колеблемость вироблення окремих робітників у першій бригаді значно менше, ніж у другій. Отже, чим більше варіанти окремих одиниць сукупності різняться між собою, тим більше вони відрізняються від своєї середньої, і навпаки - варіанти, що мало відрізняються один від друга, більш близькі за значенням до середньої, яка в такому випадку буде більш реально представляти всю сукупність. Тому для характеристики і вимірювання варіації ознаки в сукупності крім середньої використовують наступні показники: абсолютні - варіаційний розмах, середнє лінійне та середнє квадратичне відхилення, дисперсію; відносні - коефіцієнти варіації. 2.1 Абсолютні характеристики варіації Варіаційний розмах (або розмах варіації) - це різниця між максимальним і мінімальним значеннями ознаки:
У нашому прикладі розмах варіації змінного виробітку робітників становить: у першій бригаді R = 105-95 = 10 дет., під Друга бригада R = 125-75 = 50 дет. (В 5 разів більше). Це говорить про те, що вироблення 1-ї бригади більш "стійка", але резервів зростання виробітку більше у другої бригади, т.к у разі досягнення всіма робітниками максимальної для цієї бригади виробітку, нею може бути виготовлено 3 * 125 = 375 деталей, а в 1-й бригаді лише 105 * 3 = 315 деталей. Якщо крайні значення ознаки не типові для сукупності, то використовують квартильное або доцільний розмахи. Квартильное розмах R Q = Q 3 -Q 1 охоплює 50% обсягу сукупності, доцільний розмах першого R D1 = D 9 -D 1 охоплює 80% даних, другий доцільний розмах R D2 = D 8 -D 2 - 60%. Недоліком показника варіаційного розмаху є, але що його величина не відображає всі коливання ознаки. Найпростішим узагальнюючим показником, що відбиває всі коливання ознаки, є середнє лінійне відхилення, що представляє собою середню арифметичну абсолютних відхилень окремих варіант від їх середньої величини: для не GROUP даних , для згрупованих даних , де х i - значення ознаки в дискретному ряду або середина інтервалу в інтервальному розподілі. У вищенаведених формулах різниці в чисельнику взяті по модулю, інакше, відповідно до властивості середньої арифметичної, чисельник завжди буде дорівнювати нулю. Тому середнє лінійне відхилення в статистичній практиці застосовують рідко, тільки в тих випадках, коли підсумовування показників без урахування знака має економічний сенс. З його допомогою, наприклад, аналізується склад працюючих, рентабельність виробництва, оборот зовнішньої торгівлі. Дисперсія ознаки - це середній квадрат відхилень варіант від їх середньої величини: проста дисперсія , зважена дисперсія . Формулу для розрахунку дисперсії можна спростити:
Таким чином, дисперсія дорівнює різниці середньої з квадратів варіант і квадрата середньої з варіант сукупності: . Однак, внаслідок підсумовування квадратів відхилень дисперсія дає викривлене уявлення про відхилення, тому її на основі розраховують середнє квадратичне відхилення, яке показує, на скільки в середньому відхиляються конкретні варіанти ознаки від їх середнього значення. Обчислюється шляхом вилучення квадратного кореня з дисперсії: для не GROUP даних , для варіаційного ряду
Чим менше значення дисперсії і середнього квадратичного відхилення, тим однорідніше сукупність, тим більше надійної (типової) буде середня величина. Середнє лінійне та середнє квадратичне відхилення - іменовані числа, тобто виражаються в одиницях вимірювання ознаки, ідент...ичні за змістом і близькі за значенням. Розраховувати абсолютні показники варіації рекомендується за допомогою таблиць. Таблиця 3 - Розрахунок характеристик варіації (на прикладі терміну даних про змінному виробітку робочих бригади) Групи робочих по виробленню, шт.Число робочих, Середина інтервалу, Розрахункові значення
170-190 10 180 1800 -36 360 1296 12960 190-210 20 200 4000 -16 320 256 5120 210-230 50 220 11000 4 200 16 800 230-250 20 240 4800 24 480 576 11520 Разом: 100 - 21600 - 1360 - 30400Середньозмінний вироблення робітників:
Середнє лінійне відхилення:
Дисперсія вироблення:
Середнє квадратичне відхилення виробітку окремих робітників від середнього виробітку: . 2.1.1 Розрахунок дисперсії способом моментів Обчислення дисперсій пов'язано з громіздкими розрахунками (особливо якщо середня величина виражена великим числом з декількома десятковими знаками). Розрахунки можна спростити, якщо використовувати спрощену формулу і властивості дисперсії. Дисперсія володіє наступними властивостями: якщо всі значення ознаки зменшити або збільшити на одну й ту ж величину А, то дисперсія від цього не зменшиться: , якщо всі значення ознаки зменшити або збільшити в одне і те ж число раз (h раз), то дисперсія відповідно зменшиться або збільшиться в раз. Тобто, якщо дисперсію зменшених значень ознаки описати таким виразом , то чи Використовуючи властивості дисперсії та спочатку зменшивши всі варіанти сукупності на величину А, а потім розділивши на величину інтервалу h, отримаємо формулу обчислення дисперсії в варіаційних рядах з рівними інтервалами способом моментів:
, де - дисперсія, обчислена за способом моментів; h - величина інтервалу варіаційного ряду; - нові (перетворені) значення варіант; А - постійна величина, в якості якої використовують середину інтервалу, що володіє найбільшою частотою; або варіант, що має найбільшу частоту; - квадрат моменту першого порядку; - момент другого порядку. Виконаємо розрахунок дисперсії способом моментів на основі даних про змінному виробітку робітників бригади. Таблиця 4 - Розрахунок дисперсії по способу моментів Групи робочих по виробленню, шт.Число робочих, Середина інтервалу, Розрахункові значення
170-190 10 180 -2 -20 40 190-210 20 200 -1 -20 20 210-230 50 220 0 0 0 230-250 20 240 1 20 20 Разом 100 - - -20 80 Порядок розрахунку: визначаємо постійне число А, це варіанту з найбільшою частотою: А = 220; визначаємо розраховуємо і визначаємо моменти 1-го і 2-го порядку:
розраховуємо дисперсію:
2.1.2 Розрахунок дисперсії альтернативного ознаки Серед ознак, що вивчаються статистикою, є й такі, яким властиві лише два взаємно виключають значення. Це альтернативні ознаки. Їм надається відповідно два кількісних значення: варіанти 1 і 0. частості варіанти 1, яка позначається p, є частка одиниць, що володіють даними ознакою. Різниця 1-р = q є частості варіанти 0. Таким чином, х i w i 1 p 0 qСередня арифметична альтернативного ознаки , т.к p + q = 1. Дисперсія альтернативного ознаки , т.к1-р = q Таким чином, дисперсія альтернативної ознаки дорівнює добутку частки одиниць, володіють даною ознакою, і частки одиниць, що не володіють цією ознакою. Якщо значення 1 і 0 зустрічаються однаково часто, тобто p = q, дисперсія досягає свого максимуму pq = 0,25. Дисперсія альтернативного ознаки використовується у вибіркових обстеженнях, наприклад, якості продукції. 2.1.3 міжгрупових дисперсія. Правило додавання дисперсій Дисперсія, на відміну від інших міжгрупових дисперсія характеризує варіацію , де - - - Вона або, де - дисперсій: . дисперсій:
Приклад . При вивченні № п/п № п/п Вироблення
Вироблення
1 2 3 4 5 6 7 9 9 10 12 13 1 0 2 3 9 1 1 0 4 9 1 2 3 4 14 14 15 17 1 0 2 1 1 0 4 60 - 24 S 60 - 6 В Завдання полягає в внутрішньогрупової. Визначаємо по по по Розраховуємо Розраховуємо внутрішньогрупові дисперсії: по по Внутрішньогрупові Обчислюємо середню з внутрішньогрупових дисперсій:
Середня міжгрупових
Обчислюємо
Визначаємо
Очевидно, Ця
Емпіричний В або Це Емпіричне
Емпіричне кореляціїнное відношення, як і, може приймати значення від 0 до 1. Якщо зв'язок відсутній, то = 0. У цьому випадку = 0, тобто групові середні рівні між собою і міжгруповий варіації немає. Значить Группіровочний ознака - фактор не впливає на освіту загальної варіації. Якщо зв'язок функціональна, то = 1. У цьому випадку дисперсія групових середніх дорівнює загальній дисперсії (), тобто внутрішньогрупової варіації немає. Це означає, що Группіровочний ознака повністю визначає варіацію досліджуваного результативного ознаки. Чим ближче значення кореляційного відношення до одиниці, тим тісніше, ближче до функціональної залежності зв'язок між ознаками. Для якісної оцінки тісноти зв'язку між ознаками користуються співвідношеннями Чеддока. 0 0-0,2 0,2-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 1 Сила зв'язку відсутня дуже слабка слабка помірна помітна тісний досить тісний функціо- нальне В прикладі, що свідчить про тісний зв'язок між продуктивністю праці робітників і їх кваліфікацією. 2.2 Відносні характеристики варіації При порівнянні варіації різних ознак або однієї ознаки в різних сукупностях, використовують відносні характеристики варіації - коефіцієнти варіації. Коефіцієнти варіації розраховуються як відношення абсолютних характеристик варіації (R, d, s) до центру розподілу і часто виражаються відсотками. Лінійний коефіцієнт варіації:. Квадратичний коефіцієнт варіації:. Коефіцієнт осціляціі: квадратичного коефіцієнт варіації використовують як критерій однорідності сукупності. Сукупність вважається однорідною, якщо Якщо центр розподілу представлений медіаною, то використовують квартильное коефіцієнт варіації:
3. Теоретичні криві розподілу У варіаційних рядах розподілу існує певний зв'язок між зміною частот і значення варьирующего ознаки: частоти з ростом значення ознаки спочатку збільшуються, а потім після досягнення якоїсь максимальної величини в середині ряду зменшуються. Значить, частоти в рядах змінюються закономірно в зв'язку зі зміною варьирующего ознаки. Такого роду закономірні зміни частот у варіаційних рядах називаються закономірностями розподілу. Аналіз варіаційних рядів передбачає виявлення такої закономірності розподілу, визначення її типу і побудова теоретичної кривої розподілу, що характеризує даний тип розподілу. Під кривою розподілу розуміють графічне зображення у вигляді безперервної лінії зміни частот у варіаційному ряду, функціонально пов'язаного із зміною варіант. Емпіричної (фактичної) кривої розподілу є полігон. Під теоретичним розподілом розуміють імовірнісне розподіл частот у спостережуваному варіаційному ряду. У практиці статистичного дослідження зустрічаються розподілу: нормальний, логарифмічне, біномінальні, Пуассона та ін 3.1 Нормальний розподілПри побудові статистичних моделей найбільш часто застосовується нормальний розподіл. Розподіл неперервної випадкової величини х називають нормальним, якщо описується наступної кривої:
де - ордината кривої нормального розподілу (частості); е = 2,7182 - підстава натурального логарифма; p = 3,1415 - Постійне число: - нормоване відхилення. Крива нормального розподілу симетрична щодо, тому величину називають центром розподілу. На її вид впливають значення і s. Чим більше s при незмінній, тим більш плоскою і розтягнутій уздовж осі абсцис стає крива, і навпаки. Якщо s залишається незмінною, а змінюється, то криві нормального розподілу мають однакову форму, але відрізняються становищем максимальної ординати. Особливості кривої нормального розподілу (рис.2): Крива симетрична і має максимум в точці, де. Крива асимптотично наближається до осі абсцис, продовжуючись у обидві сторони до нескінченності. Крива має дві точки перегину при t = В± 1, тобто при таких значеннях х, коли відхилення варіанти від середньої дорівнює середньому квадратическому відхиленню:. При нормальному розподілі 68,3% всіх досліджуваних частот знаходяться в межах від до . У проміжку, обмеженому точками, знаходиться 95,4%, а в проміжку, відповідно, 99,7% всіх частот досліджуваної сукупності (рис.1). y
s s х
Рис.1. Крива нормального розподілу 3.2 Вирівнювання емпіричного розподілу по кривої нормального розподілу У аналізі розподілу велике значення має, наскільки емпіричне розподіл ознаки відповідає нормальному. Для цього частоти фактичного розподілу потрібно порівняти з теоретичними, які характерні для нормального розподілу. Значить, потрібно за фактичними даними обчислити теоретичні частоти кривої нормального розподілу, що є функцією нормованих відхилень (див. рівняння кривої). Інакше кажучи, емпіричну криву розподілу потрібно вирівняти кривої нормального розподілу. Порядок розрахунку теоретичних частот кривої нормального розподілу: за емпіричними даними розраховують середню арифметичну ряду і середнє квадратичне відхилення s; знаходять нормоване відхилення t кожної варіанти від середньої арифметичної; по таблиці розподілу функції визначають її значення; обчислюють теоретичні частоти за формулою: , де N - обсяг сукупності, і - довжина інтервалу; будують і порівнюють графіки емпіричні і теоретичних частот (кривих розподілу). Сума теоретичних і емпіричних частот повинна бути рівною, але може не збігатися через заокруглень в розрахунках. 3.3 Критерії згоди Так як всі припущення про характері того або іншого розподілу - це гіпотези, то вони повинні бути піддані статистичній перевірці за допомогою критеріїв згоди, які дають можливість встановити, коли розбіжності між теоретичними і емпіричними частотами слід визнати несуттєвими, тобто випадковими, а коли - істотними (невипадковими). Таким чином, критерії згоди дозволяють відкинути чи підтвердити правильність висунутої при вирівнюванні ряду гіпотези про характер розподілу в емпіричному ряду. Існує ряд критеріїв згоди. Найчастіше застосовують критерії Пірсона, Романовського та Колмогорова. Критерій згоди Пірсона - Один з основних:
де k - число груп, на які розбито емпіричне розподіл, - спостережувана частота ознаки у i-й групі, - теоретична частота. Для розподілу складено таблиці, де зазначено критичне значення критерію згоди для обраного рівня значущості та ступенів свободи df. (Або) Рівень значимості - ймовірність помилкового відхилення висунутої гіпотези, тобто ймовірність того, що буде відкинута правильна гіпотеза. У статистиці користуються трьома рівнями: a = 0,10, тоді Р = 0,90 (у 10 випадках їх 100 може бути відкинута правильна гіпотеза); a = 0,05, тоді Р = 0,95; a = 0,01, тоді Р = 0,99. Число ступенів свободи df визначається як число груп у ряді розподілу мінус число зв'язків: df = k-z. Під числом зв'язків розуміється число показників емпіричного ряду, використаних при обчисленні теоретичних частот, тобто показників, що зв'язують емпіричні і теоретичні частоти. Наприклад, при вирівнюванні по кривої нормального розподілу є три зв'язки: ; ;. Тому при вирівнюванні по кривої нормального розподілу число ступенів свободи визначається як df = k -3. Для оцінки суттєвості розрахункове значення порівнюється з табличним. При повному збігу теоретичного і емпіричного розподілів, в Інакше> 0. Якщо>, то при заданому рівні значущості і числі ступенів свободи гіпотезу про неістотність (випадковості) розбіжностей відхиляємо. У випадку, якщо, укладаємо, що емпіричний ряд добре узгоджується з гіпотезою про передбачуваний розподіл і з імовірністю Р = (1-a) можна стверджувати, що розбіжність між теоретичними і емпіричними частотами випадково. Критерій згоди Пірсона використовується, якщо обсяг сукупності досить великий, при цьому частота кожної групи повинна бути не менше 5. Критерій Романовського з заснований на використанні критерію Пірсона, тобто вже знайдених значень, і числа ступенів свободи df:
Він зручний при відсутності таблиць для. Якщо з <3, то розбіжності розподілів випадкові, якщо ж з> 3, то не випадкові і теоретичне розподіл не може слугувати моделлю для досліджуваного емпіричного розподілу. Критерій Колмогорова l заснований на визначенні максимального розбіжності між накопиченими частотами і частості емпіричних і теоретичних розподілів: або , де D і d - відповідно максимальна різниця між накопиченими частотами і накопиченими частості емпіричного і теоретичного рядів розподілів; N - число одиниць сукупності. Розрахувавши значення l, за таблицею Р (l) визначають ймовірність, з якою можна стверджувати, що відхилення емпіричних частот від теоретичних випадкові. Імовірність Р (l) може змінюватися від 0 до 1. При Р (l) = 1 відбувається повний збіг частот, Р (L) = 0 - повне розбіжність. Якщо l приймає значення до 0,3, то Р (l) = 1. Основна умова використання критерію Колмогорова - достатньо велике число спостережень. 3.4 Характеристики нерівномірності розподілу Симетричний варіаційний ряд - це ряд, в якому частоти варіант, равностоящими від середньої вліво і вправо, дорівнюють між собою.
Необхідною, але недостатньою умовою симетричності є рівність трьох характеристик: середньою арифметичної, моди і медіани: = Ме = mо Цим співвідношенням користуються для розпізнавання симетричності варіації. Нормальний розподіл, як зазначалося, характеризується симетричністю. Тому порівняння фактичного розподілу з нормальним насамперед констатує відсутність або наявність у ньому асиметрії розподілу. Асиметричні розподілу зустрічаються частіше, ніж симетричні. Асиметричний варіаційний ряд - це ряд, в якому частоти варіант, равностоящими від середньої вліво і вправо, не рівні між собою і змінюються по-різному. Часто такий ряд називають скошеним Розрізняють правосторонню і лівобічну асиметрію (скошеність). Ряд з правобічної асиметрією має такий вигляд розподілу частот
У лавах з правобічної асиметрією> Ме> mо, тобто найменшим є значення моди, а найбільшим - середньої. Ряд з лівосторонньої асиметрією має такий вигляд розподілу частот:
У лавах з лівосторонньої асиметрією <Ме Як видно з наведених малюнків, асиметрію легко визначити візуально за виглядом полігону або гістограми розподілу. При лівосторонньої асиметрії відносно центру розподілу спостерігається довга ліва гілка кривої розподілу, тоді як при правобічної асиметрії - права гілка цієї кривої. В якості показника асиметрії застосовується коефіцієнт асиметрії Пірсона: . Якщо К а > 0, скошеність правобічна, якщо До а <0, скошеність лівостороння; якщо До а = 0, варіаційний ряд симетричний. Крім симетричності розташування кривої відносно ординати середньої арифметичної, порівняння фактичного розподілу з нормальним проводиться і на ексцес. Під ексцесом розподілу розуміється високовершінность або, навпаки, нізковершінность фактичної кривої розподілу порівняно з нормальним розподілом:
Високовершінность означає позитивний ексцес і характеризує скупчення частот в середині. Нізковершінность означає негативний ексцес і велику розкиданість членів ряду. |