Зміст
Введення
1. Структура довідково-пошукових систем мережі Інтернет
1.1 Як працюють механізми пошуку
2. Порівняльний огляд довідково-пошукових систем
2.1 Gopher
2.2 WAIS
2.3 WWW
2.4 AltaVista
2.5 Yahoo
2.6 OpenText
2.7 Infoseek
3. Пошукові роботи
4. Найбільш популярні російськомовні довідково-пошукові системи в Інтернет
4.1 Rambler
4.2 Yandex
4.3 Aport
5. Найбільш популярні зарубіжні пошуковики для російськомовного користувача
5.1 Googlе
5.2 AltaVista
5.3 Yahoo
Список літератури
Введення
У Мережі існує велика кількість сервісів. Нас надалі буде цікавити WWW або просто Web (Word-Wide Web-всесвітня павутина). Це самий популярний сервіс Мережі і зручний спосіб роботи з інформацією.
Основні протоколи, використовувані в Інтернет (у Надалі також Мережа), не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже про мільйони серверах, що знаходяться в ній. Протокол HTTP, використовуваний в Інтернет, хороший лише у відношенні навігації, яка розглядається тільки як засіб перегляду сторінок, але не їх пошуку. Те ж саме відноситься і до протоколу FTP, який навіть більш примітивний, ніж HTTP. Через швидке зростання інформації, доступної в Мережі, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучи вже про межу їх ефективності. Не вказуючи конкретних цифр, можна сказати, що потрібну інформацію вже не представляється можливим отримати відразу, так як в Мережі зараз знаходяться мільярди документів і всі вони в розпорядженні користувачів Інтернет, до того ж сьогодні їх кількість зростає згідно експоненціальної залежності. Кількість змін, яким ця інформація піддана, величезно і, саме головне, вони відбулися за дуже короткий період часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення і занесення подібного обсягу інформації, одночасно доступного всім користувачам Інтернет у всьому світі, ніколи не було. Для того, щоб структурувати інформацію, накопичену в мережі Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи.
1. Структура довідково-пошукових систем мережі інтернет
Пошукові Системи зазвичай складаються з трьох компонент:
В· агент (Павук або кроулер), який переміщається по Мережі і збирає інформацію;
В· база даних, яка містить всю інформацію, яка збирається павуками;
В· пошуковий механізм, який люди використовують як інтерфейс для взаємодії з базою даних.
1.1 Як працюють механізми пошуку
Засоби пошуку і структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, в якій вони потребують. Засоби пошуку типу агентів, павуків, кроулери і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як знаходити і обробляти документи. Деякі слідують за кожною посиланням на кожній знайденій сторінці і потім, в свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлів мультиплікації; інші ігнорують лінки до ресурсів типу баз даних WAIS; інші проінструктовані, що потрібно переглядати насамперед найбільш популярні сторінки.
В· Агенти - Самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого імені. Вже зараз вони можуть шукати Сайти специфічної тематики і повертати списки Cайт, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.
В· Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
В· Кроулери переглядають заголовки і возращаться тільки перше посилання.
В· Роботи можуть бути запрограмовані так, щоб переходити по різним Посилання різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їх природи вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Однак, є методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.
Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів в кожному, індексують розмір документа і число слів в ньому, назву, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні для користувача запиту будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, проте основні принципи визначення релевантності наступні:
1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
2. Теги, в яких ці слова розташовуються.
3. Місцезнаходження шуканих слів у документі.
4. Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документа.
Ці принципи застосовуються всіма пошуковими системами. А представлені нижче використовуються деякими, але достатньо відомими (на зразок AltaVista, HotBot).
5. Час - Як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це досить безглуздий принцип. Але, якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, ...