Застосування методів математичної статистики і теорії ймовірностей у задачах теоретичної лінгвістики при аналізі усній і звучної мови російською та англійською мовами
2007
Зміст
1. Введення
2. Аналіз віршів
2.1 Побудова дискретного варіаційного ряду
2.2 Безперервні варіаційні ряди
2.3 Графічне побудова дискретних лінгвістичних варіаційних рядів для розглянутих віршів
2.4 Ряди розподілу дискретних випадкових величин
2.5 Математичне сподівання дискретної випадкової величини
2.6 Дисперсія дискретної випадкової величини
2.7 Ентропія дискретної випадкової величини
2.8 Імовірність появи голосних звуків у віршах, порівняння
2.9 Коефіцієнт темпу мови
3. Об'єднаний коефіцієнт синтаксичної та ритмомелодійних складності
4. Висновок
5. Список літератури
1. Введення
В епоху науково-технічної революції математизація охоплює всі сфери людської діяльності, в тому числі і мовознавство. Проникнення математичних методів в лінгвістику обумовлено двома причинами. По-перше, розвиток мовознавчої теорії і практики вимагає введення все більш точних і об'єктивних методів для аналізу мови і тексту. Одночасно використання математичних прийомів при систематизації, вимірі і узагальненні лінгвістичного матеріалу в поєднанні з якісною інтерпретацією результатів дозволяє мовознавцям глибше проникнути в таємниці побудови мови та освіти тексту. По-друге, все розширюються контакти мовознавства з іншими науками, наприклад з акустикою, фізіологією вищої нервової діяльності, кібернетикою та обчислювальною технікою, можуть здійснюватися тільки при використанні математичної мови, що володіє високим ступенем спільності та універсальності для різних галузей знань.
Особливо наполегливо математизуються мовознавство у зв'язку з використанням природної мови в інформаційних і управлінських системах людина-машина-людина. У діючих системах машинного перекладу, автоматичного анотування, людино-машинного діалогу всяке повідомлення на природній мові перекодовується в математичному мовою комп'ютера. Прикладом того є голосове управління в сучасних мобільних телефонах.
Говорячи про особливості взаємодії мовознавства та математики, слід мати на увазі, що як природна мова, так і мову математики є знаковими (семіотичний) системами передачі інформації.
Основні розбіжності між цими мовами пов'язані з різним побудовою мовного знака і знака математичного.
лінгвістичний знак (Слово, словосполучення, пропозиція) зазвичай включає в себе чотири компоненти - ім'я (матеріальний носій інформації), денотат (відображення предмета з зовнішнього світу), десигнат (поняття про предмет) і коннотат (комплекс чуттєво-оцінних відтінків, пов'язаних з предметом і поняттям про нього); знак математичної мови включає тільки ім'я і десигнат - математичне поняття;
лінгвістичний знак багатозначний - значення його являють собою нечіткі множини з розмитими кордонами; математичний знак має, як правило, одне концептуальне значення;
лінгвістичний знак потенційно метафоричний, у знака математичного метафоричність повністю відсутня.
Особливості побудови лінгвістичного мови призводять до того, що природна мова являє собою нежорстко організовану дифузну систему, яка сприймається і використовується людиною в значній мірі інтуїтивно. Навпаки, мова математики є добре організованою системою, існуючою і функціонуючої у вигляді логічного побудови, кожен елемент якого має усвідомлену значущість.
Конфронтація природної мови і мови математики вимагає, щоб кожному лінгвістичного об'єкту був поставлений у відповідність деякий математичний об'єкт. Лінгвістичний знак, наприклад, словосполучення або слово та складові цей знак фігури - фонеми, літери, склади - повинні інтерпретуватися з допомогою знаків математичних. Ця математична інтерпретація пов'язана з розчленуванням лінгвістичного об'єкта і виділенням у ньому одного смислового або сигнального компонента, який стає предметом подальшого дослідження.
Застосування математичних методів у мовознавстві має своєю метою замінити зазвичай дифузну, інтуїтивно сформульовану і не має повного вирішення лінгвістичну завдання однієї або декількома більш простими, логічно сформульованими і мають алгоритмічне рішення математичними завданнями. Таке розчленування складної лінгвістичної проблеми на більш прості алгорітмізуемие завдання ми будемо називати математичної експлікацією лінгвістичного об'єкта чи явища.
Вибір математичного апарату в лінгвістичних дослідженнях - питання не просте. Його рішення залежить в першу чергу від того, як визначається предмет і основні поняття мовознавства та його теоретичного ядра - структурно-математичної лінгвістики.
Деякі математики і лінгвісти вважають, що предметом математичної лінгвістики має бути вивчення граматики, що породжує текст. При цьому граматика розуміється як кінцеве безліч детермінованих правил, у тому числі неграматичних, а мову розглядається як нескінченне число регулярних ланцюжків слів, породжуваних цієї граматикою. При цьому підході експлікація лінгвістичних об'єктів повинна спиратися на теорію множин, математичну логіку, теорію алгоритмів.
На основі застосування В«НекількіснихВ» математичного апарату в теоретичному мовознавстві сформувалося напрямок, умовно зване комбінаторної лінгвістикою - в ній використовуються методи
математичної статистики
теорії ймовірностей,
теорії інформації,
математичного аналізу
Сучасні інструментальні методи експериментальної фонетики пов'язані із застосуванням різних приладів, головним чином електроакустичних (спектрографи, інтонографи тощо), а також реєструючі руху органів мови (Артикуляцію). Тому фонетика тісно пов'язана з фізикою, фізіологією і математикою. Методи математичної логіки застосовуються для формального опису категорій природних мов. Мовознавство виявилося тією гуманітарною наукою, яка, не пориваючи зв'язків з іншими науками про людину та її культурі, першою рішуче стала використовувати не тільки інструментальні методи спостереження (в фонетиці) та експериментальні прийоми (в психолінгвістиці), але і систематично застосовувати математичні способи (в тому числі і ЕОМ) для отримання і записи своїх висновків.
Мета мого реферату - виявити і вивчити статистичні закономірності стилю двох рівних текстів (по 105 слів у кожному) поетеси Зінаїди Гіппіус (1869 - 1945) «³льний віршВ» і англійського поета Вільяма Блейка В«КолисковаВ» (William Blake, 1757-1827, В«A Cradle SongВ») згідно звуковим характеристикам мови - наголосу, складності сприйняття, темпу мови і іншим. При аналізі я використовую наступні терміни:
ймовірність події,
варіаційні ряди,
математичне сподівання,
закон розподілу ймовірності,
дисперсія,
ентропія.
Також я наведу приклади використання методів математичної статистики і теорії ймовірностей при аналізі усній і звучної мови.
2. Аналіз віршів
2.1 Побудова дискретного варіаційного ряду
«³льний віршВ»
Пріманной легкістю граючи,
Кличе, тягне вільний вірш.
І спокусив він, спокушаючи,
Ледачих малих і простих.
Обіцяє він швидкі відповіді
і досягнення без боротьби.
За мною! За мною! І ось, поети -
Стиха вільного раби.
Вони стежать його звивини,
Суху ламкість, скрип кутів,
Візерунок плямисто-хтивий
Ікающіх і п'яних слів ...
Чимало слів з подолом брудним
Увійти боялися ... А тепер
Яким струмком одноманітним
втікає в зламану двері!
втекла, вшумелі і впилілісь ...
рег...