Міністерство освіти і науки Російської Федерації
Федеральне агентство з освіти міста Іркутська
Байкальський державний університет економіки і права
Кафедра Інформатики і Кібернетики
Розподіл "Хі-квадрат" і його застосування
Самостійна робота
Автор роботи:
Колмикова Ганна Андріївна
студентка 2 курсу
групи ІС-09-1
Іркутськ 2010
Зміст
Введення
1. Розподіл "хі-квадрат"
2. "Хі-квадрат" в задачах статистичного аналізу даних
Додаток
Висновок
Список використаної літератури
Введення
Як підходи, ідеї та результати теорії ймовірностей використовуються в нашому житті?
Базою є імовірнісна модель реального явища або процесу, тобто математична модель, в якій об'єктивні співвідношення виражені в термінах теорії ймовірностей. Ймовірності використовуються, перш за все, для опису невизначеностей, які необхідно враховувати при прийнятті рішень. Маються на увазі, як небажані можливості (ризики), так і привабливі ("щасливий випадок"). Іноді випадковість вноситься в ситуацію свідомо, наприклад, при жеребкуванні, випадковому відборі одиниць для контролю, проведенні лотерей або опитувань споживачів.
Теорія ймовірностей дозволяє по одним ймовірностям розрахувати інші, що цікавлять дослідника.
Імовірнісна модель явища або процесу є фундаментом математичної статистики. Використовуються два паралельних ряди понять - відносяться до теорії (Ймовірнісної моделі) і відносяться до практики (вибірці результатів спостережень). Наприклад, теоретичної ймовірності відповідає частота, знайдена за вибіркою. Математичному очікуванню (теоретичний ряд) відповідає вибіркове середнє арифметичне (практичний ряд). Як правило, вибіркові характеристики є оцінками теоретичних. При цьому величини, що відносяться до теоретичного ряду, "знаходяться в головах дослідників ", відносяться до світу ідей (по давньогрецького філософа Платону), недоступні для безпосереднього вимірювання. Дослідники розташовують лише вибірковими даними, за допомогою яких вони намагаються встановити цікавлять їх властивості теоретичної ймовірнісної моделі.
Навіщо ж потрібна імовірнісна модель? Справа в тому, що тільки з її допомогою можна перенести властивості, встановлені за результатами аналізу конкретної вибірки, на інші вибірки, а також на всю так звану генеральну сукупність. Термін "генеральна сукупність "використовується, коли мова йде про великий, але кінцевою сукупності досліджуваних одиниць. Наприклад, про сукупності всіх жителів Росії або сукупності всіх споживачів розчинної кави в Москві. Мета маркетингових або соціологічних опитувань полягає в тому, щоб твердження, отримані по вибірці з сотень або тисяч чоловік, перенести на генеральні сукупності в декілька мільйонів чоловік. При контролі якості в ролі генеральної сукупності виступає партія продукції.
Щоб перенести висновки з вибірки на більш широку сукупність, необхідні ті чи інші припущення про зв'язку вибіркових характеристик з характеристиками цієї більш обширної сукупності. Ці припущення засновані на відповідній ймовірнісної моделі.
Звичайно, можна обробляти вибіркові дані, не використовуючи ту чи іншу імовірнісну модель. Наприклад, можна розраховувати вибіркове середнє арифметичне, підраховувати частоту виконання тих чи інших умов і т.п. Однак результати розрахунків будуть відноситися тільки до конкретної вибіркою, перенесення отриманих з їх допомогою висновків на яку-небудь іншу сукупність некоректний. Іноді подібну діяльність називають "аналіз даних". У порівнянні з ймовірносно-статистичними методами аналіз даних має обмежену пізнавальну цінність.
Отже, використання імовірнісних моделей на основі оцінювання та перевірки гіпотез за допомогою вибіркових характеристик - ось суть ймовірносно-статистичних методів прийняття рішень.
1. Розподіл "хі-квадрат"
За допомогою нормального розподілу визначаються три розподілу, які в даний час часто використовуються при статистичній обробці даних. Це розподілу Пірсона ("хі - квадрат"), Стьюдента і Фішера.
Ми зупинимося на розподілі ("хі - квадрат"). Вперше це розподіл було досліджено астрономом Ф.Хельмертом в 1876 році. У зв'язку з гауссовской теорією помилок він досліджував суми квадратів n незалежних стандартно нормально розподілених випадкових величин. Пізніше Карл Пірсон ( Karl Pearson) дав ім'я даної функції розподілу "хі - квадрат". І зараз розподіл носить його ім'я.
Завдяки тісному зв'язку з нормальним розподілом, П‡2-розподіл відіграє важливу роль в теорії ймовірностей і математичній статистиці. П‡2-розподіл, і багато інших розподілу, які визначаються за допомогою П‡2-розподілу (наприклад - розподіл Стьюдента), описують вибіркові розподілу різних функцій від нормально розподілених результатів спостережень і використовуються для побудови довірчих інтервалів і статистичних критеріїв.
Розподіл Пірсона (хі - квадрат) - розподіл випадкової величини де X1, X2, ..., Xn - нормальні незалежні випадкові величини, причому математичне сподівання кожної з них дорівнює нулю, а середнє квадратичне відхилення - одиниці.
Сума квадратів
розподілена за законом ("хі - квадрат ").
При цьому число доданків, тобто n, називається "числом ступенів свободи "розподілу хі - квадрат. C збільшенням числа ступенів свободи розподіл повільно наближається до нормального. Щільність цього розподілу
Отже, розподіл П‡2 залежить від одного параметра n - числа ступенів свободи.
Функція розподілу П‡2 має вигляд:
якщо П‡2 ≥ 0. (2.7.)
На Малюнок 1 зображено графік щільності ймовірності та функції П‡2 - розподілу для різних ступенів свободи.
Малюнок 1 Залежність щільності ймовірності П† (X) у розподілі П‡2 (хі - квадрат) при різному числі ступенів свободи.
Моменти розподілу "хі-квадрат":
M [П‡2] = n
D [П‡2] = 2n
Розподіл "хі-квадрат" використовують при оцінюванні дисперсії (за допомогою довірчого інтервалу), при перевірці гіпотез згоди, однорідності, незалежності, насамперед для якісних (категорізованних) змінних, що приймають кінцеве число значень, і в багатьох інших завданнях статистичного аналізу даних.
2. "Хі-квадрат" в задачах статистичного аналізу даних
Статистичні методи аналізу даних застосовуються практично у всіх областях діяльності людини. Їх використовують завжди, коли необхідно отримати і обгрунтувати небудь судження про групу (об'єктів або суб'єктів) з деякою внутрішньою неоднорідністю.
Сучасний етап розвитку статистичних методів можна відраховувати з 1900 р., коли англієць К. Пірсон заснував журнал "Biometrika". Перша третина ХХ ст. пройшла під знаком параметричної статистики. Вивчалися методи, засновані на аналізі даних з параметричних сімейств розподілів, описуваних кривими сімейства Пірсона. Найбільш популярним було нормальне розподіл. Для перевірки гіпотез використовувалися критерії Пірсона, Стьюдента, Фішера. Були запропоновані метод максимальної правдоподібності, дисперсійний аналіз, сформульовані основні ідеї планування експерименту.
Розподіл "хі-квадрат" є одним з найбільш широко використовуваних в статистиці для перевірки статистичних гіпотез. На основі розподілу "хі-квадрат" побудований один з найбільш потужних критеріїв згоди - критерій "хі-квадрата" Пірсона.
Критерієм згоди називають критерій перевірки гіпотези про передбачуваний законі невідомого розподілу.
Критерій П‡2 ("хі-квадрат") використовується для перевірки гіпотези різних розподілів....