Vyhledávání na Internetu pro pokročilé
Princip fulltextového vyhledávání
 Tisk

Princip fulltextového vyhledávání

Vyhledávání stránek

Základem činnosti vyhledávacích strojů jsou tzv. roboti. Jedná se v podstatě o program, který prochází po jednotlivých hypertextových odkazech v síti. Vyhledávacímu programu je na začátku specifikována výchozí stránka, z níž zkopíruje všechny odkazy a uloží si je do databáze. Databáze obsahuje všechna slova z navštívených stránek a další doplňující informace např. frekvence výskytu slova na stránce a jeho umístění. Tímto způsobem pokračuje ve své činnosti stále dokola a obohacuje databázi o další adresy webových stránek. Všechna slova nalezená v navštívených webových stránkách ukládá do databáze (indexu). Jelikož odkazy na informace obsažené na dané stránce musí být stále aktuální, roboti se na dříve již navštívené stránky v určitých intervalech vracejí a zjišťují změny v jejich obsahu. Pokud dojde ke změně obsahu stránky, je databáze vyhledávače aktualizována. Základním problémem, se kterým se každý vyhledávač potýká je to, že se počet stránek, které vznikají na Internetu rozrůstá rychleji, než je schopnost vyhledávacího stroje stránky indexovat.


Indexace navštívených stránek

Jakmile vyhledávací stroj získá nové stránkou, zařadí ji do své databáze. Tento proces se nazývá zpracování (indexace) stránek. Součástí indexace je vytvoření seznamu klíčových slov dané stránky. Index vznikne tím způsobem, že se ke každému klíčovému slovu přiřadí stránky, které toto slovo obsahují a následně se vytvoří jejich seznam. Zde však celý proces nekončí. Každá webová stránka a každé významové slovo, které se na ní vyskytuje, obdrží určitou významovou váhu, na základě které pak ve finální fázi vyhledávání dochází k seřazení stránek. Právě v této části vyhledávání se některé vyhledávací stroje liší. Existuje několik metod jak přiřazovat váhu klíčovým slovům. Jednou z nich je kritérium umístění slova na stránce (např. jeho frekventovanost). Další metodou je styl zvýraznění slova na stránce (zvýrazněné slovo má větší váhu). Velmi efektivní způsob jak přiřazovat klíčovým slovům význam představuje tzv. citovanost (sleduje se kolikrát je daná stránka odkazována z jiných stránek). Toto kritérium využívá při svém vyhledávání např. nejznámější vyhledávací stroj Google.


Prezentace výsledků vyhledávání

Poslední fázi vyhledávacího procesu představuje zobrazení stránek vztahujících se k zadanému dotazu. Jak už bylo řečeno, vyhledávací služby neprohledávají Internet, ale svou vlastní databázi. Proto trvá hledání výsledků řádově maximálně jednotky sekund. Dotaz zadaný uživatelem je předán vyhledávacímu programu, který pracuje na základě vyhledávacího algoritmu. V dalším kroku následuje vyhledání všech stránek, které se týkají dotazu. Po dokončení této činnosti vyhledávací program zobrazí uživateli seznam všech webových stránek obsahujících požadované klíčové slovo (slova), a to podle jejich relevance.


Princip fulltextového vyhledávání včetně indexace stránek demonstruje animace .