Кількісна міра інформації » Українські реферати
Теми рефератів
Авіація та космонавтика Банківська справа Безпека життєдіяльності Біографії Біологія Біологія і хімія Біржова справа Ботаніка та сільське гос-во Бухгалтерський облік і аудит Військова кафедра Географія
Геодезія Геологія Держава та право Журналістика Видавнича справа та поліграфія Іноземна мова Інформатика Інформатика, програмування Історія Історія техніки Комунікації і зв'язок Краєзнавство та етнографія Короткий зміст творів Кулінарія Культура та мистецтво Культурологія Зарубіжна література Російська мова Маркетинг Математика Медицина, здоров'я Медичні науки Міжнародні відносини Менеджмент Москвоведение Музика Податки, оподаткування Наука і техніка Решта реферати Педагогіка Політологія Право Право, юриспруденція Промисловість, виробництво Психологія Педагогіка Радіоелектроніка Реклама Релігія і міфологія Сексологія Соціологія Будівництво Митна система Технологія Транспорт Фізика Фізкультура і спорт Філософія Фінансові науки Хімія Екологія Економіка Економіко-математичне моделювання Етика Юриспруденція Мовознавство Мовознавство, філологія Контакти
Українські реферати та твори » Информатика, программирование » Кількісна міра інформації

Реферат Кількісна міра інформації

Лабораторна робота № 1 Кількісна міра інформації

МЕТА РОБОТИ: експериментальне вивчення кількісних аспектів інформації.

ЛАБОРАТОРНЕ ЗАВДАННЯ

1. Визначити кількість інформації (по Хартлі), що міститься в заданому повідомленні, при умови, що значеннями є літери кирилиці.

В«Прізвище Ім'я По батькові В»завершив щорічний з'їзд ерудованих школярів, які мріють глибоко проникнути в таємниці фізичних явищ і хімічних реакцій

2. Побудувати таблицю розподілу частот символів, характерні для заданого повідомлення. Проводиться так звана частотна селекція, текст повідомлення аналізується як потік символів і вираховується частота зустрічальності кожного символу. Порівняти з наявними даними в табл 1.

3. На підставі отриманих даних визначити середнє і повна кількість інформації, що міститься в заданому повідомленні

4. Оцінити надмірність повідомлення.

КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ

Кількість інформації по Хартлі і Шеннону

Поняття кількість інформації ототожнюється з поняттям інформація. Ці два поняття є синонімами. Міра інформації повинна монотонно зростати зі збільшенням тривалості повідомлення (сигналу), яку природно вимірювати числом символів в дискретному повідомленні і часом передачі в безперервному випадку. Крім того, на вміст кількості інформації повинні впливати і статистичні характеристики, так як сигнал повинен розглядатися як випадковий процес.

При цьому накладено ряд обмежень:

1. Розглядаються тільки дискретні повідомлення.

2. Безліч різних повідомлень звичайно.

3. Символи, складові повідомлення рівноймовірно і незалежні.

Хартлі вперше запропонував в якості міри кількості інформації взяти логарифм числа можливих послідовностей символів. </p>

I = log m k = log N (1)

К.Шеннон спробував зняти ті обмеження, які наклав Хартлі. Насправді в розглянутому вище випадку рівної ймовірності та незалежності символів при будь-якому k всі можливі повідомлення виявляються також рівноімовірними, ймовірність кожного з таких повідомлень дорівнює P = 1/N. Тоді кількість інформації можна виразити через ймовірності появи повідомлень I =-log P.

В силу статистичної незалежності символів, ймовірність повідомлення довжиною в k символів дорівнює

Якщо i-й символ повторюється в даному повідомленні k i раз, то

так як при повторенні i символу k i раз k зменшується до m. З теорії ймовірностей відомо, що, при досить довгих повідомленнях (Велике число символів k) k i ≈ k В· p i і тоді ймовірність повідомлень буде дорівнювати


Тоді остаточно отримаємо

(2)

Даний вираз називається формулою Шеннона для визначення кількості інформації.

Формула Шеннона для кількості інформації на окремий символ повідомлення збігається з ентропією. Тоді кількість інформації повідомлення складається з k символів буде дорівнювати I = k В· H

Кількість інформації, як міра знятої невизначеності

При передачі повідомлень, про який або системі відбувається зменшення невизначеності. Якщо про систему всі відомо, то немає сенсу посилати повідомлення. Кількість інформації вимірюють зменшенням ентропії.

Кількість інформації, що набувається при повному з'ясуванні стану деякої фізичної системи, так само ентропії цієї системи:

Кількість інформації I - є осредненное значення логарифма ймовірності стану. Тоді кожне окреме доданок-log p i необхідно розглядати як приватну інформацію, одержувану від окремого повідомлення, то є

Надмірність інформації

Якби повідомлення передавалися за допомогою рівноймовірно букв алфавіту і між собою статистично незалежних, то ентропія таких повідомлень була б максимальною. Насправді реальні повідомлення будуються з не рівноймовірно букв алфавіту з наявністю статистичних зв'язків між літерами. Тому ентропія реальних повідомлень-H р , виявляється багато менше оптимальних повідомлень - H о. Допустимо, потрібно передати повідомлення, що містить кількість інформації, рівне I. Джерелу, що володіє ентропією на букву, рівної H р , доведеться затратити деякий число n р , тобто

Якщо ентропія джерела була б Н 0 , то довелося б затратити менше літер на передачу цього ж кількості інформації

I = n 0 H 0

Таким чином, частина букв n р -n про є як би зайвими, надлишковими. Міра подовження реальних повідомлень по порівнянні з оптимально закодованими і являє собою надмірність D.

(3)

Але наявність надмірності можна розглядати як ознаку недосконалості джерела повідомлень. Наявність надмірності сприяє підвищенню завадостійкості повідомлень. Висока надмірність природних мов забезпечує надійне спілкування між людьми.

Частотні характеристики текстових повідомлень

Важливими характеристиками тексту є повторюваність літер, пар букв (биграмм) і взагалі m-ок (m-грам), сполучуваність букв один з одним, чергування голосних і приголосних і деякі інші. Чудово, що ці характеристики є достатньо стійкими.

Ідея полягає в підрахунку чисел входжень кожної n m можливих m-грам в досить довгих відкритих текстах T = t 1 t 2 ... t l , складених з букв алфавіту {a 1 , a 2 , ..., a n }. При цьому проглядаються підряд йдуть m-грами тексту

t 1 t 2 ... t m , t 2 t 3 ... t m +1 , ..., t i-m +1 t l-m +2 ... t l .

Якщо - число появ m-грами a i1 a i2 ... a im в тексті T, а L загальне число підрахованих m-грам, то досвід показує, що при достатньо великих L частоти

для даної m-грами мало відрізняються один від одного.

У силу цього, відносну частоту вважають наближенням ймовірності P (a i1 a i2 ... a im ) появи даної m-грами в випадково вибраному місці тексту (такий підхід прийнятий при статистичному визначенні ймовірності).

Для російської мови частоти (в порядку убування) знаків алфавіту, в якому ототожнені E c Е, Ь з виданням, а також мається знак пробілу (-) між словами, наведені в таблиці 1.

інформація текстовий повідомлення кількісний


Таблиця 1

- 0.175 Про 0.090 Е, Е 0.072 А 0.062 І 0.062 Т 0.053 Н 0.053 З 0.045 Р 0.040 У 0.038 Л 0.035 До 0.028 М 0.026 Д 0.025 П 0.023 У 0.021 Я 0.018 И 0.016 З 0.016 Ь, виданню 0.014 Б 0.014 Г 0.013 Ч 0.012 Й 0.010 Х 0.009 Ж 0.007 Ю 0.006 Ш 0.006 Ц 0.004 Щ 0.003 Е 0.003 Ф 0.002

Деяка різниця значень частот у наведених в різних джерелах таблицях пояснюється тим, що частоти істотно залежать не тільки від довжини тексту, але і від його характеру.

Стійкими є також частотні характеристики біграм, триграм і четирехграмм осмислених текстів.

ХІД РОБОТИ

1. Побудував таблицю розподілу частот символів, характерниx для заданого повідомлення шляхом ділення кількості певного символу в даному повідомленні на загальне число символів

За формулою

H = обчислив ентропію повідомлення

2. Далі за формулою Шеннона для визначення кол-ва інформації


обчислив к-ть інформації в переданому повідомленні

3. Обчислив надмірність D за формулою



Друкувати реферат
Замовити реферат
Товары
Наверх Зворотнiй зв'язок