Domů > Odborné články > Základní vzdělávání > Vyhledávání faktografických informací
Odborný článek

Vyhledávání faktografických informací

19. 5. 2005 Základní vzdělávání
Autor
Zdeněk Jonák

Anotace

Faktografické systémy uživateli pomohou nalézt jednoznačné odpovědi na jím jednoznačně specifikované dotazy. To samozřejmě předpokládá jisté porozumění zadanému dotazu. Článek je obohacen o odkazy na systémy, které jsou toho schopny.

Článek je součástí cyklu Inteligentní systémy pro vyhledávání a zpracování informací.


Určitý počet nerelevantních informací vyhledaných dokumentografickými systémy je způsoben tím, že tyto vyhledávací systémy testují zpravidla pouze formální shodu mezi řetězci či subřetězci zadaných lexikálních jednotek dotazu.

Faktografické informační systémy se od systémů dokumentografických liší tím, že na zadaný dotaz neodkazují uživatele k souboru více či méně relevantních textů, ale poskytují na jednoznačně formulovaný dotaz víceméně jednoznačnou odpověď.1

V případě vyhledávání odpovědi na dotaz týkající se určitého faktu se systém nesmí spokojit pouze s formální shodou dotazu a textu, ale musí problematice obsažené v dotazu porozumět a eliminovat z vyhledávaných textů informace nadbytečné, redundantní. To vyžaduje poměrně náročné lingvistické zabezpečení vyhledávacího subsystému.

Dokumenty představují prostředky přenosu či uchování modelů skutečnosti ve znakové podobě. Mezi modely a soubory znaků, které je reprezentují, existuje určitý stupeň volnosti projevující se tím, že rozdílné modely lze popsat soubory znaků s vysokým počtem shodných prvků i vazeb mezi prvky a naopak k popisu obsahově blízkých modelů lze použít soubory znaků s velmi nízkým stupněm podobnosti prvků a jejich vazeb.

Poměrně vysoká míra volnosti způsobuje, že ve dvou či více textech přinášejících shodné modely můžeme rozlišit rozdílně formulované jednotky. Nazvěme tyto jednotky faktovými či faktografickými informacemi a systémy, které takto strukturované informace uchovávají, faktografickými systémy.

Jednoznačnou odpověď můžete získat jen na velice jednoduchý dotaz (např. Jakou atomovou váhu má vodík?). Ve složitějších případech můžete dospět ke zcela rozdílným výsledkům.

Např. na dotaz "Keplerovy zákony pohybu planet" můžete získat dva odlišné výstupy:

Výstup 1:

  1. Planety obíhají po eliptických drahách kolem Slunce, které je ve společném ohnisku elips.
  2. Plochy opsané průvodičem planety (spojnice planety a Slunce nebo např. družice se středem Země) za stejnou dobu jsou vždy stejné.
  3. Druhé mocniny oběžných dob planet, jsou v témž poměru jako třetí mocniny velkých poloos. (Malá čs. encyklopedie, 1986)

Výstup 2:

Orbit má tvar elipsy, stejné plochy jsou opsány za stejnou dobu a doba oběhu je úměrná mocnině z třetí odmocniny velikosti orbitu. (Feynman, 1998)

Z uvedených rozdílů mezi texty, ať už se jedná o texty jako odpověď na dotaz nebo texty, v nichž systém vyhledává, je zřejmé, že systém nemůže spolehlivě vyhledat relevantní dokument, pokud textu dotazu skutečně nerozumí a pokud hledá v prohledávaných souborech pouze formální shodu mezi řetězci či subřetězci slov dotazu a textu.

Nyní, když jsme si trochu ujasnili některé lingvistické zvláštnosti textu, bychom měli ujasnit, co míníme porozuměním textu a zda je možné abstrahovat z textů na základě tohoto porozumění informace či poznatky.

Řešení problematiky porozumění textu

Porozuměním textu rozumíme proces, v němž se jednotlivé rozlišitelné prvky textu společně s dalšími prvky uloženými již v našem mozku skládají do větších celků, čímž teprve nabývají smyslu.

Přijmeme-li tuto hypotézu, zbývá rozhodnout, jak terminologicky rozlišit jednotky méně významné a významnější, a navíc formulovat vazby mezi nimi. Prozatím se tyto úrovně nerozlišují. V jednom případě se o prvcích nižší úrovně mluví jako o informacích, o prvcích vyšší úrovně jako o poznatcích, v jiných případech je tomu právě naopak. Protože v současné odborné literatuře nevyvolává směšování pojmů fakt, data, informace, poznatek, znalost pocit nepříhodnosti, obrátím svoji pozornost do oblasti, která terminologickému projasnění věnovala pozornost.

Naše hledání se v jistém smyslu shoduje s hledáním, které započal na počátku století pozitivismus. Lidské poznání bylo na počátku století v dílech logických pozitivistů B. Russella, R. Carnapa, L. Wittgensteina (Hroch, 1996) chápáno jako jakási asimilace objektů vnějšího světa do lidské mysli. Prostředníky této operace byla slova, chápaná jako jakési nálepky připevněné na věci a umožňující tak zprostředkování poznání. Elementy světa a jazyka, který je umožňuje zobrazit, si podle této teorie odpovídají. Za základní stavební kameny světa byly považovány jednotliviny, individua a jejich vlastnosti, vztahy. V ideálním případě je možné jednoduchý fakt a jeho vlastnost vyjádřit holou větou skládající se z podmětu a přísudku - např. Kočka přede. Tento fakt byl považován za pravdivý, bylo-li možné zde a nyní pozorovat předoucí kočku.

Ve stručnosti lze shrnout tuto teorii následovně - fakta jsou bezprostředně dána a jsou vyjádřitelná jednoduchým výrazem; složitější výroky vznikají skládáním výroků jednodušších, ale vždy se lze jejich rozložením dobrat k primárním faktům.

Pozitivisté tedy dospěli k závěru, že mezi empirickými prvky a prvky ostatními existuje určitá vzájemnost. Empirické prvky odkazují na vnější svět, druhé slouží k vyvozování složitějších výroků z jednodušších. Pozitivisté tedy přísně rozlišovali svět nezkreslený jazykem a svět jazykových formulací a veškeré svoje úsilí věnovali dokazování existence strukturálního izomorfizmu mezi nimi.

Teoretikové, kteří přišli po pozitivistech (W. V. O. Quine, Sellars, R. Rorty), vycházeli z poznání, že tento izomorfismus nelze dokázat.

Rorty (Hroch, 1996), který tento pokus o teorii reprezentace, odrazu kritizoval jako první, např. tvrdí, že toto chybné chápání vědění v termínech vnímání, které nakonec vyústilo ve víru, že naše poznání je jakýmsi zrcadlem přírody, je dědictvím filozofie již od Platóna, Descartese a pokračuje až do přítomnosti. Poznání není, dle něho, možné odvozovat ze smyslových dat, a tudíž nelze stavět informace získané přímo nad informace odvozené.

Tito teoretikové i jejich následovníci tedy rezignovali na možnost určit, že jednotkou kontaktu člověka se světem není jednoduchý výrok nebo jeho složenina, ale celá provázaná stavba poznatků se všemi důsledky, které lze z jejích výroků odvodit - tedy ucelená teorie.

Jaký je vztah mezi jazykovou, logickou a faktovou strukturou jakékoliv teorie? Dospívá se k názoru, že mezičlánkem mezi dotazem a texty by měl být jakýsi referenční, znalostní subsystém, který by obsahoval klasifikaci, strukturaci znalostí a stal se pro vyhledávací systém jakýmsi inteligentním překladačem z přirozeného jazyka do jazyka znalostí.

Žádná fulltextová databáze v přirozeném jazyku, i kdyby byla sebepodrobněji hypertextově provázána, si nemůže stát za tím, co obsahuje, protože není inteligentní natolik, aby obsahovala skutečné znalosti, které jsou vždy předpokládány za slovy a větami sdělení. Jak může počítač např. vědět, co ve větě kancelářský pracovník dělal uzávěrku znamená kancelářský pracovník, dělal, uzávěrku? Stačí větu obměnit na úředník účtoval poslední období a žádný systém mezi nimi podobnost nenalezne. K tomu nestačí připojit ke každému slovu synonyma apod., k tomu je nutné systému dodat zcela nový subsystém znalostí, který umožní porozumět celé struktuře sdělení.

Příkladem takového inteligentního systému je systém Cyc. Kromě slovníku obsahuje podstatné informace o každém slově analyzovaného textu. Systém musí obsahovat syntaktický analyzátor, který obsahuje pravidla, na jejichž základě vstupují slova do kontextu s ostatními slovy věty.

Sémantický analyzátor poskytuje znalosti, inferenční pravidla vztahující se ke slovům analyzovaného textu. Např. ve výše uvedené větě musí pomocí inferenčních pravidel dokázat odvodit, že dělat uzávěrku a účtovat poslední období jsou činnosti, které mohou znamenat totéž, že kancelářský pracovník a úředník jsou stejné výrazy pro totéž apod.

Je zřejmé, že k vyhledávání faktografických informací se fulltextové databáze ani běžné vyhledávací stroje nehodí. Výsledkem hledání faktografických informací těmito prostředky by byl silný šum. Dokud se nepodaří vyřešit problém vztahu mezi informacemi, poznatky, daty, pojmy a fakty skutečnosti, nelze ani vytvoření fungujícího algoritmu očekávat.

Systémy pro vyhledávání faktografických informací představují v této fázi vývoje spíše soubory predefinovaných odpovědí na očekávané otázky, zpravidla využívající soubory FAQ nebo hesla encyklopedií a slovníků. Na skutečné znalostní databáze umožňující analyzovat plné texty si ještě budeme muset počkat. Znalostní databáze, expertní systémy zatím fungují jako nadstavba nad bázemi znalostí (velice znalostně provázaných oblastí lidského poznání) v ordinacích lékařů či kancelářích právníků.

Faktografický systém
  • je schopný pracovat v přirozeném jazyku, nevyžaduje booleovské výrazy
  • nevyužívá pouze prostoru WWW stránek, ale čerpá i z databází novinových článků, encyklopedií apod.
  • poskytuje na stručný dotaz stručnou odpověď; pokud takovou odpověď nedokáže sestavit, nabídne odkaz na prameny, kde lze odpověď získat.
Kategorizace faktografických systémů
  1. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) s podporou složitějších lingvistických algoritmů. Na jednoduše formulovaný dotaz formulují stručnou odpověď. Ve složitějších případech nabídnou odkaz na relevantní dokument (např. Askjeeves, Answers, Information Please, Electric Library).
    Příklady 1

  2. Systémy vyhledávání v poznatkově strukturovaných databázích (encyklopediích a slovnících) bez podpory složitějších lingvistických algoritmů. Nedokáží zpravidla samy formulovat odpověď, pouze odkazovat na zdroj informace. (např. Manifold, CrossSearch, Knowledge Base, Usenet Faqs, Search the Faq´s).
    Příklady 2

Závěr

Implementace větší míry inteligence do algoritmů informačních systémů naráží na hranice poznatků, které o problematice jazyka, porozumění textu a procesů známe.

Některé směry poznání podporují názor, že nikdy nebudeme schopni naučit stroje tomu, čemu, neznámo proč, my rozumíme. Tvrdí, že toto poznání se nedá vtělit do jiného materiálu, než skýtá naše biologická struktura. Jiné výzkumy nejsou tak skeptické a domnívají se, že dnešní nedostatečnost je jen věcí úrovně našeho poznání.

Tempo, jakým se poznání rozvíjí, spíše svědčí pro druhý názor. S jistotou lze však tvrdit, že proces přechodu od informací ke znalostem bude možné automatizovat teprve tehdy, až se schopnost software počítačů do značné míry přiblíží schopnostem mozku člověka.

Literatura:
Malá čs. Encyklopedie Praha : Academia, 1986, 365 s.


1 Jednoznačným požadavkem rozumíme např. formulaci: Jakou hmotnost má Země? Jednoznačnou a stručnou odpovědí rozumíme odpověď: Země má hmotnost "xyz" tun. Kdybychom zadali tento dotaz klasickému vyhledávacímu stroji např. formou hmotnost AND Země, získali bychom pravděpodobně množství dokumentů, počínaje historickými pokusy o odhad hmotnosti Země až po Cavendishovy exaktní pokusy o její "zvážení" na základě jím objevené hodnoty gravitační konstanty a ze známé hodnoty přitažlivosti Země.

Literatura a použité zdroje

[1] – FEYNMAN, R. P. O povaze fyzikálních zákonů. Praha : Aurora, 1998. 185 s. ISBN 80-85974-53-3.
[2] – HROCH, J. Problém rozumění a analytická filosofie. Brno : Masarykova univerzita v Brně, Filozofická fakulta, 1996. 88 s. ISBN 80-210-1359-1.
[3] – Malá čs. Encyklopedie. Praha : Academia, 1986. 365 s.
Soubory materiálu
Typ
 
Název
 
pdf
68.36 kB
PDF
Příklady 1
pdf
36.13 kB
PDF
Příklady 2

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Autor
Zdeněk Jonák

Hodnocení od uživatelů

Článek nebyl prozatím komentován.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.

Téma článku:

Informační a komunikační technologie