Domů > Odborné články > Základní vzdělávání > Systémy vyhledávání a zpracování dokumentografických informací
Odborný článek

Systémy vyhledávání a zpracování dokumentografických informací

Anotace

Principy dokumentografických systémů.

V době, kdy absolventi základních i středních škol vstoupí do životní praxe, se pravděpodobně nesetkají s počítačovými systémy, s nimiž se učí pracovat v současnosti. Z těchto důvodů je nanejvýš důležité seznamovat je s principy, které přesahují možnosti limitované dosavadní nabídkou aplikačních programů.

Inteligentní informační systémy

Pro získání představy, jakými cestami se může ubírat budoucí vývoj počítačových aplikací, nabízíme náhled do těch, které uplatňují některé poznatky z oblasti umělé inteligence. Některé z nich jsou finančně nedostupné, ale je možné je získat z internetu alespoň jako demoverze, shareware apod.

Inteligentní informační systémy lze rozdělit do dvou funkčně odlišných skupin:

  • systémy vyhledávání a zpracování dokumentografických informací
  • systémy vyhledávání a zpracování faktografických informací

Dokumentografický systém odpovídá na informační požadavek poskytnutím dokumentů, které (pravděpodobně) obsahují požadovanou informaci. Tato informace nemusí být v textu vyjádřena přímo explicitně (jako u informace faktografické), ale např. implicitně, skrytě. Uživatel ji musí z dokumentu často pracně abstrahovat, uvádět na základě svých znalostí do systémových souvislostí.

Míru inteligence informačního systému hodnotíme dle míry intelektuální práce, kterou systém vykoná za uživatele, dle toho jak je schopen transformovat útržkovité informace do uspořádaných znalostí.

Při hodnocení inteligence informačních systémů se často směšují dva nesouměřitelné přístupy:

  • zpracování numerických dat
  • zpracování textových dat

Oba typy informačních systémů se často zastřešují společným názvem data mining. Ztotožnění obou způsobů zpracování dat je velmi zkreslující, protože jde o přístupy z hlediska nároků na vytvoření algoritmu a programového řešení, co do obtížnosti, nesrovnatelné. V článku zabývajícím se inteligencí informačních systémů se zaměřujeme pouze na systémy analýzy textových dat.

Charakteristické znaky systémů zpracování textových dat

Dokumenty z obecného hlediska představují prostředky přenosu či uchování modelů skutečnosti ve znakové podobě. Mezi modely a soubory znaků, které je reprezentují, existuje určitý stupeň volnosti, projevující se tím, že rozdílné modely skutečnosti lze popsat soubory znaků s vysokým počtem shodných prvků i vazeb mezi prvky, a naopak k popisu obsahově blízkých modelů lze použít soubory znaků s velmi vysokým počtem rozdílných prvků a jejich vazeb.

Rovněž otázka položená vyhledávacímu systému je dotazem tazatele na model určité skutečnosti. Od plného textu se liší především počtem slov. Tato redukce počtu slov není pro systém, který má dotaz zpracovat, žádnou výhodou. Subsystém zpracování dotazu, má-li být vyhledávání skutečně účinné, tzn. má-li získat ze souboru textů nabízejících formálně podobné dokumenty, dokumenty shodné obsahově, musí vykonat řadu intelektuálně náročných operací.

Inteligence informačních systémů se projevuje schopností nalézt shodné modely i v případě textů s vysokým počtem rozdílných prvků a naopak eliminovat texty zdánlivě shodné, obsahující vysoké procento pouze formálně, nikoliv obsahově shodných prvků.

Dnešní systémy využívající metodu automatického indexování jednotlivých izolovaných výrazů k dosažení obsahové shody mezi dotazem a souborem textů nestačí. V tomto článku se pokouším poukázat na skutečnost, že inteligentní systémy využívající poznatky z lingvistiky či kognitivní vědy, vykazují vyšší pravděpodobnost, že kvalita vyhledávání bude vyšší než u systémů, které tyto poznatky neužívají.

Pro vyhledávání na internetu je dnes charakteristický vysoký nepoměr mezi úplností a přesností vyhledávání. Úplností vyhledávání rozumíme kvantitativní údaj udávající poměr vyhledaných relevantních a všech vyhledaných textů. Přesností vyhledávání rozumíme poměr vyhledaných relevantních a všech relevantních textů. Ideálem je dosažení situace, kdy hodnota koeficientu úplnosti i přesnosti se rovná 1.

Metody zefektivnění vyhledávacích algoritmů

Dnes existuje řada pokusů o zvýšení efektivity vyhledávání. Pokusil jsem se je rozdělit podle charakteristických znaků do následujících skupin.

  • Intelektuální zpracování textů před vstupem do databáze či sítě
  • Zpracování struktury dotazu - aplikace lingvistických poznatků (metody simulující vlastnosti přirozeného jazyka)
    • Řešení syntagmatických vztahů přirozeného jazyka
    • Řešení asociativních vztahů přirozeného jazyka

Při charakteristice inteligentního chování informačního systému se pokusíme odkázat na systém, který popisovanou technologii používá.

INTELEKTUÁLNÍ ZPRACOVÁNÍ TEXTŮ PŘED VSTUPEM DO DATABÁZE ČI SÍTĚ

Roboty vyhledávacích systémů na internetu nedokáží odlišit hodnotu lexikální jednotky, kterou vybírají z textu při automatické indexaci. Sémantická váha této jednotky se samozřejmě liší dle toho, zda je převzata z názvu, podnázvu, úvodu, závěru článku apod. Existují systémy, jejichž jediným cílem je přiřadit lexikální jednotce v textu váhu tím, že k ní připojí osvětlující komentář, potřebné synonymní, homonymní výrazy, případně ji propojí s ostatními výrazy v textu. Jedním z takových systémů je systém ATLAS.ti (www.atlasti.com)

Systém si klade vyšší cíle než jen být pouhým editorem. Snaží se obsahově podobné aspekty textu (slova, věty, obrázky) spojit v jednotku vhodnou pro obsahovou analýzu textu - tzv. hermeneutickou jednotku.

Pojem hermeneutická jednotka již sám mnohé napovídá o cíli systému. Hermeneutika je věda, usilující o pravdivé, věrohodné a hlubší pochopení textů. Zabývá se tedy procesem interpretace. Systém Atlas.ti si neklade za cíl činnost tak náročnou jako je interpretace textu, ale snaží se poskytnout nástroje, které přiřadí nejasným vícevýznamovým prvkům textu jasnější charakteristiku, prováže obsahově příbuzné části textu vazbami a spojí tyto prvky do vyšší jasně identifikovatelné kategorie - hermeneutické jednotky. Systém pracuje ve dvou modech: textovém a pojmovém.

Textový režim realizuje segmentování datových souborů na dílčí obsahové úseky, označování textů, obrázků a zvuků. Uvedeným prvkům lze přiřadit vlastní indexy, anotace, komentáře. Pojmový režim spojuje vytvořené segmenty a znaky do sémantických sítí a umožňuje tak jejich vizualizaci a přehlednost.

Na tvorbě hermeneutické jednotky se podílejí tři editory:

  • editor pro tvorbu hermeneutické jednotky - umožňuje přiřadit ke každému výrazu textu komplexnější popis

  • network editor - umožňuje vzájemně přiblížit pojmy obsahově blízké, umístěné na různých místech textu tím, že je propojuje vazbami

  • relační editor - umožňuje upřesnit sémantické vztahy mezi výrazy tím , že nabízí vazebné operátory (is part of, is property of apod.)

Funkce systému Atlas.ti
  • Quotations je funkce umožňující označené segmenty textů uložit do zvláštního souboru a zobrazit je v kartě stejného názvu. Označit lze jak jednotlivé věty, tak delší úseky textu.

  • Codes je funkce sloužící k pojmenování označených úseků textů. K označení codes se doporučuje použít stručné výrazy - slova či krátká sousloví.

  • Families je funkce umožňující propojení codes vazbami, dle obsahové podobnosti.

Soubory textů zpracované uvedeným způsobem nelze ovšem indexovat dosavadními metodami. Při jejich autoindexaci budou muset vyhledávací subsystémy vynaložit vyšší podíl inteligence než dosavadní roboty.

Ukázku zpracování obsahu Babičky od B. Němcové s využitím hermeneutické jednotky. V levém sloupci je zobrazena analyzovaná část textu. Uživatel editoru může v textu označit libovolný řetězec slov (větu, odstavec), přiřadit mu kategorii (viz otevřená tabulka kategorií Codes vpravo nahoře). Ta se zobrazí ve sloupci vlevo přímo proti označené části textu. S uvedenými kategoriemi je možné dále pracovat, vzájemně je porovnávat, vytvářet z nich sítě apod.

Ukázka zpracování obsahu Babičky
1. Ukázka zpracování obsahu Babičky
ZPRACOVÁNÍ STRUKTURY DOTAZU - APLIKACE LINGVISTICKÝCH POZNATKŮ

Existuje celá řada metod dospívajících ke zvýšení efektivnosti dokonalejším poznáním struktury dotazu i textu s následnou analýzou jejich podobnosti. Vychází se přitom z předpokladu, že s dosažením vyšší míry podobnosti dotazu a textu lze dospět k optimu úplnosti i přesnosti vyhledávání. Uvedeme několik typů vyhledávacích metod a pokusíme se je ohodnotit z hlediska jejich efektivnosti.

Nejčastěji používané jsou metody statistické, založené na předpokladu, že lexikální jednotky s vyšší frekvencí výskytu jsou současně nejzávažnějšími nositeli obsahu.

Analýza absolutní četnosti výskytu slov či sousloví dotazu v textu

Při hodnocení výše shody mezi dotazem a textem rozhoduje pouze absolutní počet výskytů slov dotazu v textu. Text s nejvyšší frekvencí výskytů jednotek dotazu v analyzovaném textu (dále klíčových slov dotazu) je zařazen při výběru na první místa mezi relevantní texty1. Tuto metodu užívají s určitými vylepšeními ve spojení s booleovskými operátory běžné vyhledávací stroje na Internetu. Touto metodou se dosahuje vysokého koeficientu úplnosti, i když za cenu snížení hodnoty koeficientu přesnosti.

Inteligentnější vyhledávače však používají metody opírající se jak o hlubší lingvistickou analýzu textu, tak o rutinizaci a kvantifikaci intuitivního předpokladu, že nejvíce odkazů směřuje na známé a oceňovaná stránky. Např. internetový prohlížeč Google řadí vyhledané stránky do pořadí nejen podle shody zadaného dotazu a frekvenční struktury textu. Významným ukazatelem, který rozhoduje o pořadí významnosti vyhledaného textu mezi ostatními, je počet odkazů, které vedou na danou stránku z jiných stránek.

Obdobným systémem jako Google je česká alternativa JYXO (www.jyxo.cz). Oproti srovnatelným vyhledávačům podporujícím vyhledávání s pomocí jednotlivých slov, frází, formálních a opozičních operátorů, zvyšuje vyhledávací sílu vyhledávání pro český jazyk JYXO zavedením subsystému ohýbání slov. Díky této schopnosti se výrazně zvyšuje úplnost vyhledávání.

Analýza relativní četnosti výskytu slov či sousloví dotazu v textu

Při hodnocení výše shody mezi dotazem a textem rozhoduje počet výskytů klíčových slov dotazu vztažený k výskytu klíčových slov v rozsáhlém souboru textů. Oproti předchozí metodě může nabýt významu i údaj s nízkou frekvencí výskytu, pokud se například ukáže, že je specifický pro jistý obor či skupinu textů. Touto metodou se zlepšuje hodnota koeficientu přesnosti, i když často za cenu nižší hodnoty koeficientu úplnosti.

Nízká efektivita výše uvedených metod je zapříčiněna nerespektováním faktu, že význam věty a vyšších textových úseků není výsledkem pouhé sumarizace významů jednotlivých slov, ale závisí na jejich umístění ve větě a jejich vzájemných vztazích. Dokonalejší systémy se snaží tyto požadavky v algoritmu analýzy dotazu a textu simulovat.

Jazyk je dle F. de Saussura systém, v němž jsou všechny jednotky vzájemně solidární a kde hodnota jednoho prvku vyplývá ze současné přítomnosti druhých. Porozumění dotazu tedy závisí na porozumění vztahům mezi slovy. Našeho problému se bezprostředně týkají dva vztahy: syntagmatický (horizontální) a asociativní (paradigmatický, vertikální).

Syntagmatické vztahy vyplývají z linearity vztahů slov ve větě a znamenají, že význam slova se z velké míry odvozuje z jeho místa ve větě.

Asociativní vztahy se týkají vztahu slova k ostatním slovům jazyka, které v této větě nejsou, ale mohly být užity.

Řešení syntagmatických vztahů přirozeného jazyka
Vyhodnocení shody mezi pořadím jednotek dotazu a pořadím jejich výskytů v textu

Konstrukce tohoto algoritmu vychází z předpokladu, že existuje logická vazba mezi jednotlivými jednotkami dotazu, která se promítá do jejich pořadí. Ze shody pořadí slov dokumentu a dotazu lze potom odvodit, že i v dokumentu jsou tyto jednotky ve stejném vztahu.

Vyhodnocení vzdálenosti mezi jednotkami dotazu vyskytujícími se v textu

Konstrukce tohoto algoritmu vychází z předpokladu, že čím více nepožadovaných informací dokument obsahuje, tím nižší je shoda mezi dokumentem a dotazem, tj. čím dále jsou v textu od sebe jednotky dotazu, tím nižší je vypovídací schopnost zkoumaného dokumentu. Vzdálenosti dvou sousedních výskytů jsou měřeny v počtu lexikálních jednotek ležících mezi nimi.

Oba výše uvedené přístupy zvyšují především přesnost vyhledávání.

Simulaci gramatiky využívají některé známé systémy. Vzdálenostní operátory (proximy operators) používá např. systém Topic, jenž při vyhledávání v databance využívá algoritmus firmy Verity. Operátory Sentence, Paragraph, Near a Near/n pak vyhledají dokumenty, v nichž se hledaná slova (nebo i slovní spojení) vyskytují v určitých maximálních odstupech (v libovolném vzájemném pořadí). Z výše uvedených informací jasně vyplývá, že při zvyšování efektivnosti práce s textovými informacemi je potřeba využít určitých lingvistických znalostí a zákonitostí struktury textu.

Řešení asociativních vztahů přirozeného jazyka
Metoda řešení synonymie přirozeného jazyka

Synonymií rozumíme možnost pojmenovat určitý jev několika jazykovými výrazy. Při vyhledávání se synonymie projevuje tím, že při zadání jednoho výrazu nejsou vyhledány výrazy významově shodné (či podobné), ale tvarem rozdílné. Jedním způsobem řešení je dodání tezauru obsahově podobných výrazů.

Některé systémy usilují o řešení obou problémových stránek jazyka. To znamená, že řeší jak vzdálenostní, tak asociativní vztahy dotazu, aby je mohly aplikovat při hledání v textu. Takovým systémem je např. Oingo (search.oingo.com, www.squirrelnet.com/search/Oingo.asp).

ZÁVĚR

Implementace větší míry inteligence do algoritmů informačních systémů naráží na hranice poznatků, které o problematice jazyka, porozumění textu a procesů při užívání jazyka nebo vnímání textu známe.

Některé směry poznání ústí v názor, že nikdy nebudeme schopni naučit stroje tomu, čemu, neznámo proč, my rozumíme. Tvrdí, že toto poznání se nedá vtělit do jiného materiálu, než skýtá naše biologická struktura. Jiné výzkumy nejsou tak skeptické a domnívají se, že dnešní nedostatečnost je jen věcí úrovně našeho poznání.

Tempo, jakým se poznání rozvíjí, spíše svědčí pro druhý názor. S jistotou lze však tvrdit, pouze to, že proces přechodu od informací ke znalostem bude možné automatizovat teprve tehdy, až se schopnost software počítačů do určité míry přiblíží schopnostem mozku člověka.

Literatura

JONÁK, Z. (2000) Inteligence systémů zpracování textů : Ikaros.
Dostupné na www.ikaros.cz/Clanek.asp?ID=200209006. ISSN 1212-5075


1 Nutné je ovšem použít tzv. slovník zakázaných slov pro slova s extrémně vysokým výskytem, jakého dosahují např. spojky či předložky.

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Autor
Zdeněk Jonák

Hodnocení od uživatelů

Článek nebyl prozatím komentován.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.

Článek pro obor:

Informační a komunikační technologie 2. stupeň