Тема
Прикладні аспекти квантитативной лінгвістики
План роботи
1. Проблематика квантитативной лінгвістики з теоретичної та прикладної точок зору
2. Основні галузі застосування структурно-ймовірнісної моделі мови
3. Авторизація тексту: приклад експертизи
Література
1. Проблематика квантитативной лінгвістики з теоретичної та прикладної точок зору
Назва В«Квантитативна лінгвістикаВ» досить умовно, хоча і досить широко використовується в сучасній науковій літературі. Воно характеризує міждисциплінарний напрямок в прикладних дослідженнях, в якому в якості основного інструменту вивчення мови і мовлення використовуються кількісні або статистичні методи аналізу. Іноді Квантитативна (або кількісна) лінгвістика протиставляється комбінаторної лінгвістиці. В останньої домінуючу роль займає В«некількіснихВ» математичний апарат теорія множин, математична логіка, теорія алгоритмів і т.д.
Застосування кількісних методів при описі функціонування мови мало чим відрізняється від використання аналогічного інструментарію в природничих і гуманітарних науках. Залучення методів вимірювання та підрахунку мовних реалізацій дозволяє, однак, істотно модифікувати уявлення про мовну системі і можливостях її функціонування. У цьому відношенні Квантитативна лінгвістика виявляється найважливішим фактором, що впливає на лінгвістичну теорію. Наприклад, у сфері граматики теоретична лінгвістика, як правило, обмежується констатацією існування в російській мові системи відмінків. Зі структурної точки зору цього, бути може, і досить. Тим часом за рамками обговорення залишається вельми суттєва інформація про те, як часто використовуються різні відмінки, яка динамка використання різних відмінків з плином часу. Дослідження такого роду дозволило б виявити тенденції розвитку відмінкової системи і на основі цього навіть сформулювати гіпотези про майбутній стан граматичної системи російської мови.
Інший приклад. З системної точки зору в російській, англійській і латинською мовами є форма називного відмінка однини особових займенників. Проте в англійській мові при дієслові ця форма займенника практично завжди необхідна, в російській - займенник у цих випадках зазвичай представлено, а в латині - як правило, відсутня. Відсутність достовірних кількісних даних про ці мовні явища робить структурний опис явно недостатнім. Зрозуміло, є й змішані випадки.
Близькі проблеми виникають і в сфері лексики. Звичайні тлумачні словники не поміщають у складі словникової статті інформації про частоту використання тієї чи іншої лексеми. Це пов'язано з дуже великим обсягом роботи, який треба виконати, щоб для кожного слова вказати хоч якісь рамки частотності. Для користувача словника така інформація може виявитися дуже важливою, часто вирішальною для прийняття рішення про використання слова. Ср, наприклад, високочастотні в публіцистиці ідіоми з голови до ніг/з ніг до голови (48 входжень на 21 млн слововживань), цілком і повністю (49 входжень на 21 млн), на всі сто (42 входження на 21 млн), рівним рахунком, ні більше ні менше (71 входження на 21 млн), ні багато, ні мало (133 входження на 21 млн) і досить рідкісні для газетно-журнального стилю вираження море розливання (9 входжень на 21 млн), (і) старий і млад (8 входжень на 21 млн), різні різниці (1 входження на 21 млн)).
З теоретичної точки зору використання статистичних методів в мовознавстві дозволяє доповнити структурну модель мови імовірнісним компонентом, тобто створити структурно-імовірнісну модель, що володіє значним пояснювальним потенціалом. Цю сторону використання кількісних методів слід вважати додатком статистики в мовознавстві. До моделям такого роду відноситься, наприклад, В«модель життєвого циклу словаВ», запропонована А. А. Полікарповим. Проведений ним квантитативних аналіз показав, що в досить значній часовій перспективі є явна тенденція до збільшення ступеня абстрактності значень у багатозначного слова - чим пізніше виникає значення, тим воно більш абстрактно. Розроблена кількісна модель дозволяє робити цікаві припущення про відносне В«віціВ» різних частин мови, тенденцій розвитку лексичної системи мови і т.д.
З наведеного прикладу видно, що задача побудови структурно ймовірнісної моделі функціонування мови відноситься до теоретичним проблемам лінгвістики і входить в компетенцію теорії мови. В прикладної ж області Квантитативна лінгвістика представлена ​​насамперед використанням фрагментів цієї моделі.
2. Основні галузі застосування структурно-ймовірнісної моделі мови
Лінгвістичний моніторинг функціонування мови. Завдання лінгвістичного моніторингу полягає у виявленні загальних особливостей функціонування мовної системи в конкретному типі дискурсу (науковому, політичному дискурсі, текстах засобів масової інформації і т.д.). В якості предмета лінгвістичного моніторингу можуть виступати такі феномени природної мови, як типи мовних помилок, сфера іноземних запозичень, нові слова і значення, нові (креативні, творчі - не конвенціональні) метафори, тематичне розподіл лексики (наприклад, лексика тимчасових і просторових відносин, лексика вираження почуттів та емоцій, спортивна лексика і т.д.), особливості використання в текстах тих чи інших граматичних форм, синтаксичних конструкцій. Технологія лінгвістичного моніторингу грунтується на двох найважливіших передумовах: по-перше, на регулярності і періодичності аналізованих даних, і, по-друге - на досить великому обсязі притягається матеріалу, на репрезентативності вибірки даних. У силу цього лінгвістичний моніторинг неможливий без відповідного комп'ютерного забезпечення. Використання комп'ютерної технології дозволяє давати оцінку досліджуваного феномену, виявляючи його розподіл за часом, за джерелами, авторам і т.д.
Інформація про статистичні закономірності функціонування мовної системи лежить в основі деяких методик аналізу даних, розроблювальних у політичній лінгвістиці. До них відноситься, зокрема, методика контентаналіз, використовувана для виявлення структури та стану суспільної свідомості. За допомогою контентаналіз з'являється можливість по частоті вживання лексем реконструювати, наприклад, ціннісні орієнтації суспільства, виявляти актуальні теми публічної політики, оцінювати динаміку зміни тематики політичних дискусій і т.д..
Комп'ютерне моделювання мови і мовлення. Інша важлива область прикладного використання знань про частоту використання тих чи інших мовних структур - комп'ютерна лінгвістика. Багато комп'ютерні програми, пов'язані з функціонуванням мови, використовують алгоритми, що грунтуються на даних про частоту вживання фонем, морфем, лексичних одиниць і синтаксичних конструкцій. Наприклад, програми автоматичної корекції орфографії містять словники, як правило, тільки найбільш частотних лексем. Рідкісні слова користувач може вводити в свій індивідуальний словник. Аналогічні словники використовуються в програмах автоматичного розпізнавання письмового тексту і мови (типу Fine Reader). Абсолютна частота появи лексем (особливо термінологічної лексики) використовується в системах автоматичного анотування та реферування. Так, згідно статистико-дистрибутивного методу автоматичного індексування інформативними для даного тексту вважаються скупчення слів, розташованих досить близько один від одного, частота яких перевершує деяку порогову величину, наприклад, середню частоту слів у документі (метод ACSI-Matic).
Дешифрування кодованого тексту. У процесі дешифрування також можуть використовуватися дані про частоту вживання графем, морфем і слів, а також їх взаємному розташуванні. До теперішнього часу розроблені продуктивні алгоритми дешифрування, засновані на частоті і дистрибуції елементів кодованого тексту; СР деші-Фровочние алгоритми Б. В. Сухотина, статистико-Комбінаторний метод Н.Д.Андреева. Близькі до завдань дешифрування формальні процедури В«відкриттяВ»...