Курсова робота
з дисципліни В«ІнформатикаВ»
по темі: В«Комп'ютерна лінгвістикаВ»
Зміст
ВСТУП
1. Місце і роль комп'ютерної лінгвістики в лінгвістичних дослідженнях
2. Сучасні інтерфейси комп'ютерної лінгвістики
ВИСНОВОК
ЛІТЕРАТУРА
Введення
В житті сучасного суспільства важливу роль відіграють автоматизовані інформаційні технології. З плином часу їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки і засобів зв'язку вражає уяву, то в області смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми і від уміння моделювати ці процеси на ЕОМ.
Коли мова йде про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої на природних мовами, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з його мовою. Більш того, природна мова є інструментом мислення. Він є також універсальним засобом спілкування між людьми - засобом сприйняття, накопичення, зберігання, обробки і передачі інформації. Проблемами використання природної мови в системах автоматичної обробки інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно - на рубежі п'ятдесятих і шістдесятих років минулого сторіччя. За минулі півстоліття в області комп'ютерної лінгвістики були отримані значні наукові і практичні результати: були створені системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу усного мовлення та багато інших. Дана робота присвячена побудови оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики при проведенні лінгвістичних досліджень.
1. Місце і роль комп'ютерної лінгвістики в лінгвістичних дослідженнях
У сучасному світі при проведенні різних лінгвістичних досліджень все більш активно використовується комп'ютерна лінгвістика.
Комп'ютерна лінгвістика - це галузь знань, пов'язана c вирішенням завдань автоматичного оброблення інформації, представленої на природній мові. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння сенсу текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мови (переходу від формалізованого подання сенсу до текстам на природній мові). Ці проблеми виникають при вирішенні ряду прикладних задач і, зокрема, задач автоматичного виявлення і виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу усного мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ на природній мові, автоматичної класифікації та індексування текстових документів, їх автоматичного реферування, пошуку документів в повнотекстових базах даних.
Лінгвістичні кошти, створювані і застосовувані в комп'ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну і процедурну. До декларативною частини відносяться словники одиниць мови і мовлення, тексти та різного роду граматичні таблиці, до процедурної частини - засоби маніпулювання одиницями мови і мовлення, текстами і граматичними таблицями. Комп'ютерний інтерфейс відноситься до процедурної частини комп'ютерної лінгвістики.
Успіх у вирішенні прикладних задач комп'ютерної лінгвістики залежить, насамперед, від повноти і точності подання в пам'яті ЕОМ декларативних засобів та від якості процедурних засобів. На сьогоднішній день необхідний рівень вирішення цих завдань поки ще не досягнуто, хоча роботи в області комп'ютерної лінгвістики ведуться в усіх розвинутих країнах світу (Росія, США, Англія, Франція, Німеччина, Японія та ін.)
Тим Проте, можна відзначити серйозні наукові та практичні досягнення в галузі комп'ютерної лінгвістики. Так в ряді країн (Росія, США, Японія, тощо) побудовані експериментальні та промислові системи машинного перекладу текстів з одних мов на інші, побудований ряд експериментальних систем спілкування з ЕОМ на природній мові, ведуться роботи зі створення термінологічних банків даних, тезаурусів, двомовних і багатомовних машинних словників (Росія, США, Німеччина, Франція та ін), будуються системи автоматичного аналізу та синтезу усного мовлення (Росія, США, Японія та ін), ведуться дослідження в області побудови моделей природних мов.
Важливою методологічною проблемою прикладної комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною і процедурної компонентами систем автоматичної обробки текстової інформації. Чому віддати перевагу: потужним обчислювальним процедурам, що спирається на відносно невеликі словникові системи з багатою граматичної та семантичної інформацією, або потужної декларативною компоненті при відносно простих комп'ютерних інтерфейсах? Більшість вчених вважають що, другий шлях переважніше. Він швидше приведе до досягнення практичних цілей, так як при цьому менше зустрінеться тупиків і важко переборних перешкод і тут можна буде в більш широких масштабах використовувати ЕОМ для автоматизації досліджень і розробок.
Необхідність мобілізації зусиль, перш за все, на розвитку декларативною компоненти систем автоматичної обробки текстової інформації підтверджується півстолітнім досвідом розвитку комп'ютерної лінгвістики. Адже тут, незважаючи на безперечні успіхи цієї науки, захоплення алгоритмічними процедурами не принесло очікуваного успіху. Настав навіть деяке розчарування в можливостях процедурних засобів.
В Зважаючи на вищенаведене, представляється перспективним такий шлях розвитку комп'ютерної лінгвістики, коли основні зусилля будуть спрямовані на створення потужних словників одиниць мови і мовлення, вивчення їх семантико-синтаксичної структури та на створення базових процедур морфологічного, семантико-синтаксичного та концептуального аналізу та синтезу текстів. Це дозволить надалі вирішувати широкий спектр прикладних задач.
Перед комп'ютерної лінгвістикою стоять, насамперед, завдання лінгвістичного забезпечення процесів збору, накопичення, обробки та пошуку інформації. Найбільш важливими з них є:
1. Автоматизація складання та лінгвістичної обробки машинних словників;
2. Автоматизація процесів виявлення і виправлення помилок при введенні текстів в ЕОМ;
3. Автоматичне індексування документів та інформаційних запитів;
4. Автоматична класифікація і реферування документів;
5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних і багатомовних базах даних;
6. Машинний переклад текстів з одних природних мов на інші;
7. Побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) на природній мові, або на мові, близькій до природному;
8. Витяг фактографічної інформації з неформалізованих текстів.
Детально зупинимося на проблемах, найбільш відносяться до теми дослідження.
В практичної діяльності інформаційних центрів є необхідність вирішення завдання автоматизованого виявлення та виправлення помилок в текстах при їх введенні в ЕОМ. Ця комплексна задача може бути умовно розчленована на три завдання - Завдання орфографічного, синтаксичного і семантичного контролю текстів. Перша з них може бути вирішена за допомогою процедури морфологічного аналізу, використовує досить потужний еталонний машинний словник основ слів. В процесі орфографічного контролю слова тексту піддаються морфологічному аналізу, і якщо їх основи ототожнюються з основами еталонного словника, то вон...