ТЕМА: Інформаційно-пошуковий тезаурус
1. Інформаційно-поскових тезаурус
Словники типу тезаурус або ідеографічні вперше розроблені в лінгвістиці. Тезауруси призначені для полегшення пошуку мовних засобів виражають дане поняття (ідею). Класичним прикладом пошукового тезауруса є: тезаурус англійських слів і виразів перше видання якого було підготовлено Роджестоном 1852 подібні тезауруси створені і для інших природних мов. Лінгвістичний тезаурус розроблено у зв'язку з автоматизованою підготовкою тексту.
Синтагматичні зв'язку - це співвідношення одиниці мови в даному висловлюванні.
В інституті російської мови РАН створений тезаурус семантичних (значеннєвих) і синтагматичних зв'язків між словами і словосполученнями, російська мова як словниково-програмне засіб. Обсяг тезауруса 64000 слів і словосполучень.
ІПТ призначений:
1. забезпечувати переклад з природної мови на дескрипторного т.е для координатного індексування документів і запитів.
2. відображати парадигматичні відношення між лексичними одиницями ІПТ, які використовуються при складанні стратегії пошуку.
Парадигматичні відносини- це логічні і асоціативні відносини між ЛЕ ІПЯ.
3. служити термінологічним посібником.
ІПТ - це нормативний словник дескрипторного ІПЯ із зафіксованими в ньому парадигматичними відносинами ЛЄ.
Багатомовний ІПТ - це ІПТ містять ЛЄ взяті з декількох природних мов і представляє еквівалентні за змістом поняття на кожному з цих мов.
Метою створення ІПТ є підвищення показника пошуку інформації в ІПТ. </p>
Макротезаурус - ІПТ включає ЛЄ високої спільності та покриває широку область знання.
Мікротезаурус - спеціалізований ІПТ невеликого обсягу складений на основі вибірки з більш повного ІПТ і додатково включає конкретні російські поняття певної тематики.
Спеціалізований ІПТ або синонім монотематіческій ІПТ - ІПТ побудований для відбиття області знання або практичної діяльності.
політематичних ІПТ - ІПТ побудований для широкої сукупності областей знання.
Спеціалізований ІПТ - існує в більшості науки і техніки.
Кількість розроблених мікротезаурусов обчислюється тільки в нашій країні в кілька тисяч.
Макротезаурус і політематичний ІПТ - призначені для використання лексико-тематичної основи при побудові мікротезауруса.
політематичних ІПТ включає тільки основну лексику тієї чи іншої галузі та найбільш очевидні парадигматичні відношення.
Мікротезаурус включає специфічні терміни влас. наимен. і розвинену парадігмат.
До складу ІПТ входить вступна частина, основна частина (лексико-семантичний покажчик) та додаткові частини.
Вступна частина включає титульний лист і текстові введення.
Введення містить наступні дані:
1. мета створення і область застосування ІПТ;
2. посилання на джерела використовувані для збору лексики ІПТ (ін ІПТ, термінологічні словники);
3. опис порядку складання ІПТ;
4. опис складу і структури ІПТ;
5. кількісні характеристики ІПТ (загальна кількість статей, число дескрипторів і аскріпторов);
6. перелік відносин між ЛЕ і методикою підстави для їх встановлення.
7. перелік всіх символів і спеціальних скорочень допустимих для представлення ЛЄ.
8. порядок алфавітного розташування ЛЄ.
9. опис складу та форми подання додаткових даних в словникових статтях.
Лексико-семантичний покажчик - це основна частина ІПТ в якій в єдиному алфавітному ряді перераховані всі дескриптори і аскріптори із зазначенням їх парадигматичних відносин.
ЛЄ ІПТ - слово, словосполучення, або лексичне значення компонентів складного слова природної мови включене в ІПТ в якості дескриптора або аскріптора.
Аскріптор (не дескриптор) - ЛЄ ІПТ яка в пошукових образах документів (запитів) підлягає заміні на дескриптор при пошуку або обробці інформації.
У рамках дескрипторної статті терміни розташовуються в наступному порядку:
1. заголовний дескриптор виділений за допомогою шрифту. Наприклад великими літерами;
2. додаткові дані;
3. лексичне примітка (коротке пояснення уточнення значення дескриптора);
4. аскріптори або дескриптори синоніми (які слідують за індексом В«СВ»);
5. вищестоящі дескриптори наступні за індексом В«вВ»;
6. нижчестоящі дескриптори наступні за індексом В«аВ»;
7. дескриптори пов'язані іншими видами відносин.
Вищий дескриптор, широкий дескриптор-це дескриптор позначає або родове поняття, або ціле по відношенню до даного дескриптора позначає частину цього цілого.
нижчестоящих дескриптор або вузький дескриптор - дескриптор позначає або видове поняття, або частина представляє вищестоящий дескриптор.
Асоціативний дескриптор - Дескриптор пов'язаний з іншими семантичної зв'язком характер якої не зазначений.
Основними типами зв'язку є: причина-наслідок, процес-об'єкт, функціональне схожість, антонімія.
Неоднозначність ЛЄ усувається релятором або лексичним приміткою.
Релятор є ЛЄ і пояснює її значення відносячи її до певної понятійної категорії або предметно-тематичної області.
Додаткові частини ІПТ:
- систематичний покажчик;
- ієрархічний і інші покажчики і списки спеціальних категорій ЛЄ.
Додаткові покажчики служать для розкриття обліку і контролю парадигматичних відносин між дескрипторами, що вимагається при складанні пошукових розпоряджень.
Списки покажчиків є переліком дескрипторів згрупованих згідно з прийнятою в ІПТ рубрикації.
При побудові систематичного покажчика використовується наступна загальна категорія:
1. назву дисциплін та галузей діяльності;
2. предмети, матеріали;
3. методи, процеси, операції, явища;
4. властивості, величини, параметри, характеристики;
5. відносини структури, моделі, закони, правила, абстрактні поняття.
Кожен дескриптор відноситься тільки до однієї рубриці. Усередині рубрики дескриптор розташовується в алфавітному порядку.
Ієрархічний - представляє собою перелік списків дескрипторів, причому кожен список починається з дескриптора не має вищестоящих.
Після кожного дескриптора наведені безпосередньо нижчестоящі дескриптори із зазначенням ієрархічних, шляхом застосування нумерації. Або графічні позначення рівня.
Основні переваги дескрипторних ІПЯ:
Менша за порівнянні з класифікаційними ІПЯ трудомісткість розробки;
Можливість здійснити пошук по будь-якому заздалегідь заданому поєднанню характеристик вхідних в ІПМ;
Можливість автоматичного процесу індексування документів.
Недоліки дескрипторних ІПЯ:
В основних галузях характер дескрипторного ІПЯ ускладнює їх використання для обміну інформацією між системами з різними ІПЯ;
Неадекватна значення терміна обраний в якості дескриптора в різних дескрипторних ІПС.
2. Аналіз інформаційно-пошукового тезауруса
2.1 Інформаційно-пошуковий тезаурус по схоронності документів (БАН)
1. Перший вітчизняний двомовний тезаурус по схоронності документів, підготовлений в Бібліотеці Російської академії наук. тезаурус налічує 5166 термінів.
Видання являє собою зразок змішаного двомовного (російсько-англійського) тезауруса. Основним мовою обрана англійська. Це означає, що в якості дескрипторів обрані...