Téma |
Devět z deseti uživatelů internetu vyhledává na webu informace prostým otevřením známého vyhledavače, zadá jednoduchý dotaz a počká, “co to udělá". V drtivé většině případů vyhledavač skutečně něco najde a často aspoň něco z toho odpovídá skutečné potřebě. U obecných dotazů tato metoda funguje. U konkrétnějších je výsledkem velké množství odpovědí, které uživatel nechtěl. Ne každý je potom ochoten hledat jehlu v kupce sena. Přitom hledat se dá daleko elegantněji a nestojí to žádné úsilí navíc.
Katalogy a fulltexty
Vyhledávací služby v prostředí webu je třeba rozdělit na katalogy a fulltexty. Jak už název samotný napovídá, katalogy jsou tématicky, oborově či místně členěným souhrnem odkazů a krátkých specifikací jednotlivých webových stránek. Jako jednu ze svých hlavních služeb je budují převážně velké internetové portály. Hledáte-li instalatéra, který vám opraví kohoutek, je katalog tou nejlepší volbou. Oproti tomu hledáte-li nějaký konkrétní obsah, například proč v jedné z Haškových povídek katecheta kulhal, je nejlepší metodou jak nalézt relevantní odpověď právě použití fulltextu, který prohledává uvnitř webových stránek.
Jak to funguje
Zatímco katalog většinou tvoří živý člověk (záznam o stránce vytváří její správce při zařazování do katalogu, nebo jeho správce), fulltext je záležitostí strojovou. Fulltextový vyhledavač má vlastního robota, který v pravidelných intervalech prochází všechny dostupné internetové stránky a ukládá je na serveru vyhledavače. “Uložený internet" potom prochází lemmatizátor, který ze zachycených stránek vytváří invertované soubory. Lemmatizace je automatické zpracování textu, při kterém jsou všechna slova, která dokument obsahuje, převedena do základního tvaru a abecedně seřazena. V takto zpracovaných souborech potom fulltext vyhledává. Nezpracovanou stránku systém ponechává uloženou. Díky tomu jsou stránky prostřednictvím vyhledavače (služba archiv, náhled, cache) pro uživatele dostupné i nějaký čas poté, co byly z internetu odstraněny. Jedním z kriterií pro posuzování kvality fulltextu je také interval, po kterém roboti znovu procházejí internet a indexují nové stránky. Platí tedy, že nově vytvořená stránka se ve fulltextech objevuje s určitým zpožděním.
Není lepší český?
Mohlo by se zdát, že Google, který před šesti lety dramaticky změnil internetové hledání a na dlouhou dobu převálcoval konkurenci, tvoří spolu s konkurenčními celosvětovými fulltexty to nejlepší, co nám může internet nabídnout a české fulltexty budou jen pouhými odvozeninami něčeho, co už vymyslel někdo jiný. Opak je pravdou. Pro globální fulltexty je takřka nepřekonatelnou překážkou český jazyk a jejich funkčnost na českých stránkách je velmi omezena. Zatímco tvůrce českého fulltextu věnuje velmi mnoho úsilí zvládnutí české diakritiky a skloňování, protože to velmi podstatně ovlivní kvalitu vyhledávání, celosvětový fulltext bude tak pečlivou pozornost českému ostrůvku v internetovém oceánu věnovat jen velmi těžko. A tak oba hlavní ryze české fulltexty umějí skloňovat a řešit problémy s diakritikou a globální fulltexty nikoliv. Obojí je přitom při efektivním vyhledávání velmi důležité. Hledáte-li v globálním vyhledavači vlkodlaka, musíte zadat přesný tvar. Zadání požadavku s pravostranným rozšířením “vlkodlak*" najde většinu tvarů, nikoliv však všechny. Stránky o “vlkodlacích” stroj vynechá. Poměrně často se stává, že slovo při skloňováni mění i svůj kmen. Ukázkou může být slovo “dům". Dostupnou, ale velmi nešikovnou, možností je zadat vyhledavači všechny tvary slova a použit operátor OR. Vytvořeni dotazu “d?m*” už naráží na další problém: Tomuto požadavku vyhoví obrovské množství slov, o které uživatel vůbec neměl zájem. Dalším problémem je česká diakritika. Pro vyhledavače obecně není problém implementovat kódování českých znaků a zahrnout ho do automatické indexace; v tomto případě jsou hlavním problémem samotní uživatelé. Nemalá část z nich si zvykla v prostředí internetu diakritická znaménka vůbec nepoužívat. Takovéto ulehčení je při “neformální” internetové komunikaci, převážně v diskusích, pochopitelné. Problém nastává v okamžiku, kdy uživatel zadá dotaz s diakritikou a potřebuje najít obsah se zadanou tématikou i pokud je psán bez diakritických znamének. Zde opět ideálně pomůže český vyhledavač. Věnujeme-li se situacím, kdy je vhodné, aby vyhledávací stroj “domýšlel" některé věci za uživatele, je třeba ještě pro úplnost zmínit překlepy, přestože v tomto případě se už nejedná o české specifikum. Až 50 procent relevantních dokumentů totiž zůstává nenalezeno, pokud stroj není schopen ohlídat překlepy a různé tvary slov.
Pokročilé hledání pro nepokročilé
Samotný pojem pokročilé hledání může vzbuzovat dojem, že se jedná o věc vhodnou spíše pro odborníky. Pokročilé vyhledávání má přitom obyčejnému uživateli situaci ulehčit. Každý vyhledavač pracuje se základními vyhledávacími operátory (and, or, not) pro jejich používání v konkrétním dotazu ale každý používá vlastní syntaxi. Přepnutí do pokročilého vyhledávání uživateli umožňuje zadávat i složité dotazy bez znalosti přesného postupu zadávání. Stačí jen přepnout do pokročilého vyhledávání a jednoduše zadat, která slova musí výsledek zahrnovat, která může, jaké doslovné fráze mají být zadány či v jakém serveru je třeba vyhledávat. Jednoduchost opakovaného “vylaďování" dotazu při nepostačujících odezvách je v tomto případě nasnadě.
Přesnost nebo úplnost
Stroj poskytující dokonalé vyhledávání, který najde všechny dokumenty, které chcete, a vynechá všechny, o které naopak nestojíte, je nesplnitelným snem. Reálná situace se bude vždy pohybovat někde mezi těmito mezními situacemi. V praxi totiž platí nepřímá úměrnost, kdy na jedné straně je vysoký počet relevantních výsledků, vykoupený ovšem také vysokým počtem nechtěných dokumentů, a na druhé výsledek “nezašuměný" nerelevantními záznamy, ovšem vykoupený množstvím nezahrnutých relevantních dokumentů. Je třeba mít toto na zřeteli a před vyhledáváním mít rozmyšleno, které kriterium je v dané situaci důležitější, a přizpůsobit tomu vyhledávací strategii. Hledáte-li jednu konkrétní informaci, je na prvním místě přesnost a nejvhodnější strategií je zadat užší dotaz, jehož odpověď zahrne menší množství dokumentů, zato mezi nimi nebude třeba procházet a požadovaný obsah dohledávat. Chcete-li získat širší přehled o určité problematice, je důležitější naopak úplnost odpovědi a musíte se připravit na procházení a protřiďování většího množství dokumentů.
Fulltext nebo full search?
Pro vyhledavače procházející samotný obsah internetových stránek se vžilo označení fulltext. Tento termín ale už v současné době ztratil svou přesnost, protože fulltextové vyhledávací služby už nevyhledávají jen v textech, ale také multimediálních souborech, v obrazových a zvukových souborech. Vyhledávání v multimédiích ovšem dnes ještě není na tak vysoké úrovni, jako vyhledávání textové. Stroj totiž z fotografie na vašem webu zatím nerozezná, že na fotografii je starosta na zasedání. Mechanismem pro takové indexování je v tomto případě hlavně jméno souboru nebo kontext stránky, což nutně vede k menší účinnosti těchto mechanismů. U zvukových nebo video souborů ještě může napomoci vyhledávání pomocí metadat. Metadata jsou doplňkové textové informace, které se připojují v tomto případě ke zvukovému či videosouboru a definují jeho obsah. V tomto případě jsou vyhledavače odkázány na svědomitost tvůrců webových stránek, kteří by o metadata měli dbát stejně pečlivě jako o viditelný obsah. Technologie, umožňující strojové prohledávání a indexování na základě obsahů multimediálních souborů, jsou v současné době v raném stadiu vývoje a na jejich nasazení v praxi si budeme muset ještě několik let počkat.
Úplný text je v časopise Veřejná správa č. 41/2004.