математична статистика
1. Генеральна сукупність і вибірка
В попередньому розділі нас цікавила розподіл ознаки в деякій сукупності елементів. Сукупність, яка об'єднує всі елементи, що має ця ознака, називається генеральний. Якщо ознака людський (національність, освіту, коефіцієнт IQ т.п.), то генеральна сукупність - все населення землі. Це дуже велика сукупність, тобто число елементів в сукупності n велике. Число елементів називається об'ємом сукупності. Сукупності можуть бути кінцевими і нескінченними. Генеральна сукупність - всі люди хоча і дуже велика, але, природно, кінцева. Генеральна сукупність - всі зірки, напевно, нескінченно.
Якщо дослідник проводить вимірювання деякої неперервної випадкової величини X, то кожен результат вимірювання можна вважати елементом деякої гіпотетичної необмеженої генеральної сукупності. У цій генеральній сукупності незліченна кількість результатів розподілені по ймовірності під впливом похибок в приладах, неуважності експериментатора, випадкових перешкод в самому явищі та ін
Якщо ми проведемо n повторних вимірювань випадкової величини Х, тобто отримаємо n конкретних різних чисельних значень, то цей результат експерименту можна вважати вибіркою об'єму n з гіпотетичної генеральної сукупності результатів одиничних вимірювань.
Природно вважати, що дійсним значенням вимірюваної величини є середнє арифметичне від результатів. Ця функція від n результатів вимірів називається статистикою, і вона сама є випадковою величиною, що має деякий розподіл звана вибірковим розподілом. Визначення вибіркового розподілу тієї чи іншої статистики - найважливіше завдання статистичного аналізу. Ясно, що це розподіл залежить від обсягу вибірки n і від розподілу випадкової величини Х гіпотетичної генеральної сукупності. Вибіркове розподіл статистики представляє собою розподіл Х q в нескінченній сукупності всіх можливих вибірок обсягу n з вихідної генеральної сукупності.
Можна проводити вимірювання і дискретної випадкової величини.
Нехай вимір випадкової величини Х являє собою кидання правильної однорідної трикутної піраміди, на гранях якої написані числа 1, 2, 3, 4. Дискретна, випадкова величина Х має просте рівномірний розподіл:
Експеримент можна виробляти необмежену кількість разів. Гіпотетичної теоретичної генеральною сукупністю є нескінченна сукупність, в якій є однакові частки (по 0.25) чотирьох різних елементів, позначених цифрами 1, 2, 3, 4. Серія з n повторних бросаний піраміди або одночасне кидання n однакових пірамід можна розглядати як вибірку обсягу n з цієї генеральної сукупності. В результаті експерименту маємо n чисел. Можна ввести деякі функції цих величин, які називаються статистиками, вони можуть бути пов'язані з певними параметрами генерального розподілу.
Найважливішими числовими характеристиками розподілів є ймовірності Р i , математичне сподівання М, дисперсія D. Статистиками для ймовірностей Р i є відносні частоти, де n i - частота результату i (i = 1,2,3,4) у вибірці. Математичному очікуванню М відповідає статистика
,
яка називається вибірковим середнім. Вибіркова дисперсія
,
відповідає генеральної дисперсії D.
Відносна частота будь-якої події (i = 1,2,3,4) в серіях з n повторних випробувань (або в вибірках обсягу n з генеральної сукупності) матиме біноміальний розподіл.
У цього розподілу математичне сподівання одно 0.25 (не залежить від n), а середнє квадратичне відхилення одно (швидко убуває з ростом n). Розподіл є вибірковим розподілом статистики, відносна частота будь-якого з чотирьох можливих результатів одиничного кидання піраміди в n повторних випробуваннях. Якби ми вибрали з нескінченною, генеральної сукупності, в якій чотири різних елемента (i = 1,2,3,4) мають рівні частки по 0.25, всі можливі вибірки об'ємом n (їх число також нескінченно), то отримали б так звану математичну вибірку обсягу n. У цій вибірці кожен з елементів (i = 1,2,3,4) розподілений по біноміальному закону.
Припустимо, ми виконали кидання цієї піраміди, і число двійка випало 3 рази (). Ми можемо знайти ймовірність цього результату, використовуючи вибіркове розподіл. Вона дорівнює
.
Наш результат виявився дуже малоймовірним; в серії з двадцяти чотирьох кратних бросаний він зустрічається приблизно один раз. У біології такий результат зазвичай вважається практично неможливим. У цьому випадку у нас з'явиться сумнів: є піраміда правильної і однорідною, чи справедливо при одному киданні рівність, чи вірно розподіл і, отже, вибіркове розподіл.
Щоб дозволити сумнів, треба виконати ще один раз чотириразове кидання. Якщо знову з'явиться результат, то ймовірність двох результатів з дуже мала. Ясно, що ми отримали практично абсолютно неможливий результат. Тому вихідне розподіл невірне. Очевидно, що, якщо другий результат виявиться ще Малоймовірно, то є ще більше підстав розібратися з цією "правильної" пірамідою. Якщо ж результат повторного експерименту буде і, тоді можна вважати, що піраміда правильна, а перший результат (), теж вірний, але просто малоймовірний.
Нам можна було і не займатися перевіркою правильності та однорідності піраміди, а вважати апріорі піраміду правильної і однорідною, і, отже, правильним вибіркове розподіл. Далі слід з'ясувати, що дає знання вибіркового розподілу для дослідження генеральної сукупності. Але оскільки встановлення вибіркового розподілу є основним завданням статистичного дослідження, докладний опис експериментів з пірамідою можна вважати виправданим.
Будемо вважати, що вибіркове розподіл вірне. Тоді експериментальні значення відносної частоти в різних серіях по n бросаний піраміди будуть групуватися біля значення 0.25, що є центром вибіркового розподілу та точним значенням оцінюваної ймовірності. У цьому випадку говорять, що відносна частота є незміщеною оцінкою. Оскільки, вибіркова дисперсія прагнути до нуля із зростанням n, то експериментальні значення відносної частоти будуть все тісніше гуртуватися близько математичного очікування вибіркового розподілу з ростом обсягу вибірки. Тому є заможної оцінкою ймовірності.
Якщо б піраміда виявилася направільной і неоднорідною, то вибіркові розподіли для різних (i = 1,2,3,4) мали б відмінні математичні очікування (Різні) і дисперсії.
Відзначимо, що отримані тут Біноміальні вибіркові розподіли при великих n () добре апроксимується нормальним розподілом з параметрами і, що значно спрощує розрахунки.
Продовжимо випадковий експеримент - кидання правильною, однорідною, трикутної піраміди. Випадкова величина Х, пов'язана з цим досвідом, має розподіл. Математичне очікування тут дорівнює
.
Проведемо n бросаний, що еквівалентно випадковою вибіркою об'єму n з гіпотетичної, нескінченною, генеральної сукупності, що містить рівні частки (0.25) чотирьох різних елементів. Отримаємо n вибіркових значень випадкової величини Х (). Виберемо статистику, яка являє собою вибіркове середнє. Величина сама є випадковою величиною, що має деякий розподіл, залежне від обсягу вибірки та розподілу вихідної, випадкової величини Х. Величина є усередненою сумою n однакових, випадкових величин (тобто з однаковим розподілом). Ясно, що
.
Тому статистика є незміщеною оцінкою математичного очікування. Вона є також заможної оцінкою, оскільки
.
Таким чином, теоретичне вибіркове розподіл має теж математичне очікування, що й у вихідного розподілу, дисперсія зменшена в n раз.
Нагадаємо, що дорівнює
.
Математична, абстрактна нескінченна вибірка, пов'язана з вибіркою об'єму n з генеральної сукупності і з введеною статистикою буде містити в нашому випадку елементів. Наприклад, якщо, то в математичній вибірці будуть елементи з значеннями статистики. Всього елем...