Федеральне агентство з освіти Російської Федерації
Нижнетагильская державна соціально-педагогічна академія
Кафедра прикладної інформатики
Інформаційно-пошуковий тезаурус
Контрольна робота
Виконавець:
студент (ка) 531 (д) ІФ (ОЗО)
Путяшева Е.С.
Перевірив:
Гуторова Л.Є.
Нижній Тагіл
2007
Зміст
Введення
1. Інформаційні системи
2. Інформаційно-пошуковий тезаурус: визначення, мета розробки
3. Використання інформаційно-пошукових тезаурусів
4. Структура інформаційно-пошукового тезауруса
5. Побудова інформаційно-пошукових тезаурусів
6. Сфера застосування та перспективи розвитку інформаційно-пошукових тезаурусів
Висновок
Література
Введення
В Нині у зв'язку із зростанням обсягу документальної інформації, необхідної для прийняття ефективного управлінського рішення, і можливостями, наданими новими комп'ютерними технологіями, автоматизовані інформаційно-пошукові системи стали широко використовуватися в різних сферах економіки.
Організація швидкого і ефективного пошуку документальної інформації стає все більш нерозв'язною проблемою.
Мета документального пошуку - знаходження і видача відповідних запиту користувача документів або їх описів.
Традиційно інформаційно-пошукові системи (ІПС) застосовуються для тематичного пошуку науково-технічної інформації у великих бібліотеках, науково-технічних центрах, архівах, патентних бібліотеках.
Таким чином, сфера докладання для технологій інформаційно-пошукових систем представляється достатньо широкою.
При автоматизації пошуку документальної інформації найважливішою є задача формалізації змісту документа і запиту. При цьому пошук відбувається по всьому текстом документа або по його пошуковому образу, а в якості запиту найчастіше виступають окремі ключові слова або їх логічні комбінації. Саме на цій технології грунтується дію інформаційно-пошукового тезауруса (ІПТ). Мета моєї роботи - дати необхідні визначення, визначити цілі розробки ІПТ, його структуру і побудову, а також значення та перспективи розвитку.
1. І Інформаційно-пошукові системи
Автоматизований документальний пошук може бути організований на основі різних технологій: пошуку по пошуковому образу документа, пошуку по повному тексту документа, пошуку документів по гіпертекстових посиланнях.
Технологія повнотекстового пошуку є невід'ємною складовою таких сучасних і перспективних інформаційних технологій, як: системи управління документами (Document management system, DMS), технології групової роботи над документами (groupware), технології пошуку в Internet/intranet. На технології гіпертексту базується найвідоміший сервіс Internet World Wide Web (WWW).
Інформаційно-пошукова система для управлінських документів, як правило, вимагає розробки власного інформаційно-пошукової мови, адекватного даної предметної області.
В документальних інформаційно-пошукових системах пошук документа відбувається по короткому формалізованому опису його змісту - так званого пошукового образу документа.
Найважливішою структурної складової є інформаційно-пошукова мова.
Інформаційно-пошуковий мову, ІПЯ (indexing language, retrieval language) - штучна мова для вираження змісту документів або запитів з метою подальшого пошуку.
Основне призначення ІПЯ - встановити приналежність того чи іншого документа до певної групи понять.
Переклад текстів документів і запитів на ІПЯ називається індексуванням.
В Внаслідок індексування зміст документа відображається в пошуковий образ документа, а зміст запиту - в пошукове розпорядження.
Індексування може бути ручним (коли його виробляє людина) або автоматичним.
Для спілкування людини з комп'ютером розробляються спеціальні штучні мови, природна мова (ЕЯ) в цій якості поки не може бути використаний без спеціального попереднього перетворення. У природній мові присутні: синонімія, омонімія і полісемія, надмірність, суб'єктивність і інші властивості, що перешкоджають його автоматизованій обробці.
Синоніми - Слова, що розрізняються за написанням, але співпадаючі за змістом (Росія, РФ, Російська Федерація).
Омоніми - Слова, що збігаються за звуковим та графічним складом, але мають різні значення (ключ може бути - телеграфний, пошуковий, до замку, до шафи і т.д.).
Полісемія - Наявність у одного і того ж слова декількох різних, але пов'язаних між собою значень (наприклад: прізвище - як ім'я і прізвище - як сім'я).
Надмірність ЕЯ - наявність зайвої інформації, без якої можна точно і однозначно встановити сенс або значення повідомлення. Таким чином, в природній мові часто немає однозначної відповідності між словом і його значенням.
Штучний мову, як правило, розробляється на основі ЕЯ. При цьому усувається багатозначність слів ЕЯ.
Слова будь-якої мови в процесі відображення предметів реального світу вступають між собою в певні відносини. Ці відносини можна розділити на парадигматичні та синтагматичні.
Парадигматичні відносини - логічні відносини, що існують між лексичними одиницями ІПМ незалежно від контексту, в якому ці лексичні одиниці вживаються. Ці відносини обумовлені предметно-логічними, а не мовними чинниками, тобто відносяться до категорії позамовних зв'язків. Приклади парадигматичних відносин: частина - ціле (відділ - організація); рід - вид (цінний папір - акція); причина - Наслідок; функціональне схожість; асоціації. Облік парадигматичних відносин необхідний для правильного вибору і точного вживання слів.
Найбільш часто в якості підстави поділу при класифікації ІПЯ використовують спосіб організації понять. За способом організації понять розрізняють: предкоордініруемие (класифікаційні) ІПМ; посткоордініруемие (дескрипторного) ІПМ.
дескрипторного мови семантично більш сильні, ніж класифікаційні, але більш складні для формальної обробки.
Дескриптор - Ключове слово або словосполучення, яке служить ім'ям класу еквівалентних ключових слів (синонімів). Як правило, в якості дескриптора вибирають одне, найбільш вживане ключове слово з класу синонімічних ключових слів.
Розробка дескрипторного мови фактично зводиться до розробки інформаційно-пошукового тезауруса.
2. Інформаційно-пошуковий тезаурус: визначення, мета розробки
Тезаурус - Термін, широко використовуваний в інформатиці як складова частина інформаційно-пошукових систем.
Можна виділити два визначення інформаційно-пошукового тезауруса:
1. Інформаційно-пошуковий тезаурус являє собою словник, що відображає семантичні відносини між лексичними одиницями дескрипторного інформаційно-пошукової мови (дескрипторами) і призначений для пошуку слів за їх смисловому змісту.
2. Інформаційно-пошуковий тезаурус (ІПТ) - контрольований словник термінів предметної області, створюваний для поліпшення якості інформаційного пошуку в даної предметної області.
І в тому, і в іншому випадку мова йде про словник, який покликаний полегшити пошук необхідної інформації.
Можливо два способи розташування слів у словниках: по близькості їх літерного складу і за смисловим близькості.
За першим способом створюються алфавітні словники. За другим способом - тезауруси. Алфавітні словники служать для розкриття значення даного слова. Тезауруси служать для пошуку слів для вираження даного поняття. Тобто, якщо в звичайному словнику по слову шукається його сенс, то в тезаурус по заданому змістом шукаються слова, які цей сенс виражають.
Цілі розробки ІПТ:
- переклад мови авторів на контрольований мову, використовуваний для індексації і пошуку;
...