Domů > Odborné články > Gymnaziální vzdělávání > Principy vyhledávání informací na internetu
Odborný článek

Principy vyhledávání informací na internetu

6. 12. 2011 Gymnaziální vzdělávání
Autor
Zuzana Černá
Spoluautor
RNDr. Michal Černý Ph.D.

Anotace

Vyhledávání informací je jednou z nejdůležitějších činností, kterou by se měli žáci ve škole naučit. Nejde jen o schopnost prostým způsobem využívat vyhledávací stroje, ale je dobré znát také základní rešeršní strategie, možnosti vyhledávání jiných než textových objektů nebo porozumět tomu, jak v základu vyhledávací stroje fungují.

Známá fráze říká, že není důležité něco vědět, ale člověk musí mít jasno v tom, kde danou informaci najít. Ať již s tímto výrokem souhlasíme, či nikoli, je zřejmé, že vyhledávání informací činnost pro každého člověka bytostně důležitá, na niž naráží na každém kroku. Již během gymnaziální výuky jsou žáci konfrontováni s potřebou informace vyhledávat a pracovat s nimi. 

Zajímavé je, že v běžné výuce se obvykle prostor věnuje pouze technickému osvojení vyhledávacích nástrojů, ale již podstatně méně prostoru (pokud vůbec nějaký) je dáno tomu, jakým způsobem prakticky vyhledávat smysluplné informace, které člověk pro svoji práci potřebuje. Pokud mají žáci být schopni samostatné a relativně odborné práce, pak právě znalost rešeršních strategií a různých vyhledávacích nástrojů jim může být velice užitečná. 

My se v následujícím článku omezíme na vyhledávací stroje a katalogy, ale je třeba vědět, že nabídka je na internetu podstatně širší. Jde především o databáze, které nabízejí vysoce odborné články či knihy. Zde je ale třeba říci, že obvykle jde o texty, které přesahují možnosti běžného gymnazisty. Dále je pak možné užívat bibliografické databáze, katalogy knihoven a další nástroje. Přístup k informacím z takovýchto zdrojů není ale přímý a jednoduchý. Mimo oblast našeho zájmu zůstanou také placené služby, které nejsou v gymnaziálním prostředí příliš dobře použitelné. 

Neviditelný web

Zajímavý je z pohledu vyhledávání informací fenomén tzv. skrytého webu (někdy též neviditelného webu). Jde o takové stránky či dokumenty, které není možné efektivně prohledávat. Je třeba říci, že v dnešní době tvoří poměrně velkou část internetu, přesné odhady jsou ale vždy dosti ošidné. Obecně je možné rozlišit hned několik důvodů, proč je daná stránka neviditelná. 

První a velmi významnou kategorií jsou formáty dokumentů, které lze obtížně technicky zpracovávat. Google již umí velice dobře hledat nejen v html souborech, ale také v doc, pdf či ppt. Většina ostatních vyhledávačů v těchto dokumentech nehledá nijak efektivně, pokud je vůbec umí použít. Existují ale formáty, se kterými si neporadí nikdo, jako jsou flash animace, JavaScriptem či AJAXem generované stránky, komprimované soubory atp. Jejich obsah není možné (zatím) nijak prohledávat. Poměrně velké naděje jsou vkládány do HTML 5, které lze technicky dobře zpracovávat a které podporuje multimediální a dynamické funkce. 

Druhou částí jsou stránky, které si majitel nepřeje prohledávat. Vyhledávací stroje jsou postaveny na tom, že jejich robot prochází web a indexuje stránky. Tvůrce webu může ale jednoduše robotovi indexaci zakázat. Důvodů, proč se tak děje, může být velké množství; může jít například o web určený pro konkrétní komunitu, stránky v testovacím provozu či ve vývoji atp. Weby zajištěné heslem jsou další významnou součástí skrytého webu. Do této kategorie spadají různé informační systémy, intranetové weby (pokud jsou reálně internetové, například realizované Google Sites), stránky s placeným obsahem a mnohé další. Patří sem do značné míry i sociální sítě. 

Dále je možné se zmínit o obsahu generovaném v reálném čase, který se velice špatně indexuje. Nicméně například pro Twitter již tyto nástroje existují a běžně se používají. Problémem jsou pak především menší sítě podobného charakteru. Technicky je pak nemožné indexovat dynamicky se generující stránky, které obvykle vznikají interakcí uživatele a stroje. 

Otázkou je, zda je možné se neviditelného webu v budoucnosti zbavit. Technické problémy, jako je analýza obrázků, videí a dalších multimediálních dat, se poměrně rychle řeší a jsou v ní již první výsledky. Jistým pokrokem by mohl být fenomén sémantického webu, který bude založený na budování obsahu použitelného nejen pro čtenáře, ale také pro vyhledávací stroje. Skutečným problémem jsou stránky, na které nechtějí provozovatelé robota pustit, respektive mu nedovolí indexaci. To lze v principu technicky obejít, ale byla by poškozena práva vystavovatele. Proto tato část webu zřejmě nezmizí. 

Pro neviditelný web existují specializované vyhledávače, jako je CompletePlanet, ale jejich kvalita není příliš vysoká a problematická může být také etická a právní konsekvence podobných počinů. 

Čím vyhledávat

První otázkou, která člověka při potřebě hledat nějaké informace napadne, je, jakým nástrojem je nejlepší danou informaci hledat. Obecně je možné nabídnout čtyři základní možnosti vyhledávání: katalogy, vyhledávače, metavyhledávače, specializované vyhledávače. Každý z nich nabízí jiné možnosti, má své výhody i stinné stránky. Většina uživatelů běžně používá vyhledávače, což ale nemusí být vždy optimální. Proto se pokusíme tyto nástroje obecně charakterizovat a stručně popsat. Uvedené příklady služeb jsou čistě ilustrační. 

Historicky nejstarším nástrojem pro vyhledávání jsou katalogy. Jde o web, který do různých kategorií zařazuje odkazy na jednotlivé weby. Pokud člověk hledá například nějaký magazín zabývající se ICT, zvolí kupříkladu sekci média, dále časopisy, ICT a před ním se objeví seznam všech zapsaných položek splňujících dané kritérium. Je možné rozlišit katalogy, do kterých lze přidat stránky jednoduše ručně, a ty, kde weby procházejí kontrolou kvality. 

Vyprofilované výhody se zdají být poměrně jasné především u kontrolovaných katalogů – pokud hledám nějaký obecný produkt nebo třeba řemeslníka ze svého okolí, poměrně snadno se mohu dostat k výsledkům, které by měly být relevantní a kvalitní. Dnes jsou katalogy používány především jako seznamy firem nebo existují tematicky úzce zaměřené projekty. Nevýhodou je nepříliš velká aktuálnost zdrojů a jejich pomalá aktualizace nebo velice malá část pokrytí internetových zdrojů. 

Příklady katalogů: <topkontakt.idnes.cz>, <www.firmy.cz>, <dmoz.org

Druhou možností jak vyhledávat informace je nasazení vyhledávacího stroje. Ten funguje principiálně poměrně jednoduše. Existuje robot (což je program), který prochází web (na základě toho, kam vedou odkazy z již známých stránek) a sleduje obsah jednotlivých dokumentů (html, ale i dalších). Tyto informace jsou pak zapsány do databáze. Každý web dostane zároveň svoji hodnotu (rank, score), podle toho, jak silně je navštěvován, odkazován nebo jak jej hodnotí uživatelé. Právě část, která se věnuje tomu, jak vhodně setřídit stránky tak, aby dávaly relevantní výsledky, je pro vyhledávací stroje tím nejobtížnějším. V třetím kroku jsou pak na zadaný dotaz uživatele zobrazeny stránky v pořadí, které odpovídá relevanci zadaného dotazu a současně výše ranku webu. 

Výhodou tohoto přístupu je vysoká aktuálnost, jednoduché vyhledávání pro uživatele a také dobrá možnost použití pro rešeršní strategie (viz Principy vyhledávání informací na internetu II.). Také proto jsou dnes zdaleka nejpoužívanější. Nevýhodou je malá konkurence na trhu (Google a Bing mají téměř sto procent na světovém vyhledávání), snadné ovlivňování zobrazených výsledků (například na politickou objednávku (viz Čína)) a také poměrně často malá relevantnost výsledků. 

Příklady vyhledávačů: Google, Bing, Seznam

Třetí kategorií jsou metavyhledávací stroje. Pokud chceme najít nějakou informaci, je jistě dobré se podívat do více zdrojů. Obecně platí, že jednotlivé vyhledávače indexují rozdílné stránky a mají řadu specifických možností a funkcí, jejichž množinový rozdíl není prázdný. Uživatel má tedy možnost zadat svůj dotaz do více vyhledávacích strojů a procházet jednotlivé výsledky, což je ale časově nepříliš efektivní. Druhou možností je sáhnout po metavyhledávači. Jde o nástroj, který dotaz položí více vyhledávacím strojům a vrácené výsledky setřídí, odstraní duplikáty a dá jim jednotnou formu. 

Výhodu je, že člověk má vše setříděné a připravené na jednom místě. Výsledky mohou být bohatší a kvalitnější než u běžných vyhledávačů. Neberou navíc data jen z velkých projektů, ale často se ptají i menších, tematicky či lokálně lépe fokusovaných nástrojů. Na druhou stranu klasické katalogy či vyhledávače nabízejí často řadu zajímavých funkcí, jako jsou nadhledy, uloženou verzi stránek v případě, že aktuálně nefungují, vyhledávání dle jemnějších parametrů atp. To jsou věci, které metavyhledávače obvykle neumějí vůbec, nebo jen velice špatně. 

Příklady: <Ask.com>, <Search.com>, <Dogpile.com

Poslední kategorii představují vyhledávací stroje, které jsou tematicky redukované, tedy zaměřené na jeden konkrétní segment, kterému se věnují. Často jde o nástroje, které jsou spojené s nějakou další speciální službou, jež využívá jejich výsledky. Modelovým příkladem mohou být Google Books. Uživatel díky nim může snadno nejen vyhledávat knihy dle názvu či autora, ale v obrovském množství knih je možné také vyhledávat fulltextově. Na tyto vyhledávací služby pak přímo navazuje nástroj, který umožňuje knihy číst, vytvářet si digitální knihovnu atp. 

Výhodou těchto nástrojů je přístup k velmi selektivním výsledkům (hledám knihu, dostanu knihu) a tím obecně velice dobrá relevance nalezených informací. Nedostatkem je právě ona selekce – není jimi možné najít nic, na co se konkrétně nespecializují. 

Příklady: <twitpic.com>, <books.google.com>, <scholar.google.cz

Sémantický web

Zajímavým konceptem, o kterém se již řadu let poměrně intenzivně mluví, je sémantický web. Jde o takové technické řešení tvorby stránek, které by umožnilo pochopit obsah dokumentu také počítačům. Velkým fenoménem by tak měla být možnost vyhledávání v přirozeném jazyce. Stačilo by se zeptat: „Kdo vyhrál hokejovou extraligu v roce 2003“ a sémantický vyhledávač by mu poskytl odpověď. Nemuselo by tedy jít o prosté vyhledávání stránek, ale přímo o vyhledávání informací. Výhodou takového konceptu by byl další krok směrem k informační společnosti. Všechny znalostní otázky by byly doslova na dosah ruky, vyhledávání by bylo jednoduché a zcela přirozené. Jistým problémem je možnost snadné manipulace se skutečností – pokud dá sémantický vyhledávač špatnou odpověď, uživatel obvykle není schopen ji  jako chybnou identifikovat. 

Technologicky jde již o poměrně dobře zvládnutý problém, ke kterému jsou zcela jednoznačně vytvořené standardy. To, co se zatím nedaří (tedy ne úplně), je dostatečné množství volného obsahu, který by tvořili běžní uživatelé. Proto je většina nástrojů pro sémantický web spíše v experimentální fázi a výsledky zatím nejsou úplně oslnivé. 

V podstatě jedinou výjimkou je WolframAlpha, který vsadil na poměrně zajímavou strategii. Umožňuje dojem vyhledávání v přirozeném jazyce, umí počítat, hledat informace, odpovídat na otázky a mnoho dalšího. Potýká se ale se dvěma zásadními problémy. Předně má jen velmi omezené zdroje dat, které umí používat. Neprochází celý web, ale bere si spíše informace z konkrétních zdrojů či databází. Druhým je, že nejde o obecný sémantický web, ale o postupné přidávání funkcí a vlastností, které spíše vytvářejí zdání sémantičnosti. Přesto se předpokládá, že podobným nástrojům bude patřit budoucnost ve vyhledávání. 

Příklady: <WolframAlpha.com>, <Lexxe.com>, <researchgate.net>. 

Závěrem

Znalost základní činnosti vyhledávacích nástrojů na internetu a jejich užití patří mezi základní funkční gramotnosti, kterým by měla být věnována patřičná pozornost. Jistě není třeba, aby gymnazista měl nějaké hluboké znalosti z oboru, ale základní přehled je pro schopnost efektivně pracovat s informacemi mimořádně důležitá. 

Samostatným tématem by pak mohlo být vyhledávání multimediálního obsahu. Většina velkých vyhledávačů (Bing, Google i další) již nabízejí možnost přímo vyhledávat i jiná než jen textová data. Zajímavé jsou množnosti vyhledávání na základě vizuální podobnosti obrázků nebo snaha vyhledávačů dávat k dispozici například tematicky podobná videa. To se děje většinou na základě tagů či uživatelských popisků. Experimenty s rozlišováním dynamicky se měnících scén jsou zatím v plenkách. Přesto by se výuka měla také těmto oblastem věnovat, neboť jsou studenty hojně využívány.

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Hodnocení od recenzenta

Tým RVP.CZ
6. 12. 2011
Daný článek poměrně do detailů rozebírá problematiku vyhledávání informací s využitím "internetových" nástrojů. Příslušný text může posloužit jako podklad pro samostudium či dosdatečné doplnění o méně zažité informace. Nicméně je třeba zdůraznit, že současná generace dnes poptává informace i jinými metodami - především pak prostřednictvím sociálních médií a jejími nástroji. Tím se práce s informacemi přesouvá z režimu "individuálního zjišťování" do modelu "když nevím, tak se zeptám". Má-li tedy tato oblast vzdělávání reflektovat trendy ve společnosti, pak bychom měli umět podpořit i "online spolupráci".

Hodnocení od uživatelů

Blahoslav Jurina
30. 3. 2023, 21:17
scdvfbn

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.

Kolekce

Článek je zařazen v těchto kolekcích:

Téma článku:

Informační a komunikační technologie