ChatGPT ve školní praxi: technické pozadí

18. 5. 2023

Gymnaziální vzdělávání

Autor

RNDr. Michal Černý Ph.D.

Zobrazit více

Anotace

Zatímco v předchozích dílech seriálu jsme se systematicky soustředili na to, jak ChatGPT využívat ve školním prostředí (od obecných pedagogických kompetencí až po přípravu odborného článku), tak v tomto příspěvku bychom se rádi podívali na technické pozadí celé problematiky. Společným svorníkem celého textu je ale otázka, jak takové systémy fungují, kde jsou jejich limity a jak o nich přemýšlet ve větší obecnosti než na úrovni konkrétních příkladů.

GPT je model strojového učení, který je založený na práci s umělou neuronovou sítí. Umělé neuronové sítě jsou inspirovány biologickými strukturami a snaží se pracovat s neuronovou strukturou, jen typicky v podstatně menším měřítku. Neuronové sítě obecně umí vlastně jen jednu věc – kategorizovat, tedy rozdělovat prvky podle určitých diferenčních znaků (ty nemusí být dopředu dány).

Čím více vrstev určitá neuronová síť má, tím jemnější může provádět kategorizaci. Pokud bychom to chtěli ilustrovat na jednoduchém příkladu, můžeme si představit neuronovou síť, jejímž cílem je rozpoznávání objektů na jablka a ostatní prvky z obrázků. V první vrstvě se můžeme ptát, zda je objekt přibližně kulatý, ve druhé, zda má stopku, ve třetí budeme hledat typickou spodní část jablka, ve čtvrté kontrolovat typické barvy. Pro takovou neuronovou síť bychom tedy potřebovali čtyři vrstvy. Ve skutečnosti se ale tréning často provádí tak, že síť dostane velký korpus dat a zkouší je kategorizovat. Vždy, když síť provede nějaké rozhodnutí, získá zpětnou vazbu na to, zda bylo správné, nebo špatné. Náš příklad s jablkem je pěkný v tom, že zvolené parametry by pravděpodobně nebyly úplně ideální a síť je schopná si vytvořit lepší.

Rozhodující pro kvalitu práce s neuronovou sítí jsou tedy tréninková data (analogie s klasickým vzděláváním – rozhodující pro schopnost žáka řešit konkrétní problémy není jen jeho intelekt, ale také vzdělání, tedy tréninková data a zpětná vazba). Kvalita a velikost tréninkových dat je zásadním zdrojem úrazu u všech jazykových modelů. OpenAI má nyní problém v tom, že není jasné, zda data, která využívá, získala skutečně legálně, ale obecně je jejich zisk zásadní pro fungování umělé inteligence.

Jedním z velkých pokroků, se kterými je aktuální verze GPT-3.5, respektive 4 spojená, je právě kvalita a rozsáhlost jazykových korpusů, se kterými pracuje. Pokud se díváme na vlastní strukturu korpusu, pak v něm můžeme najít data z knižních nakladatelství a Wikipedie, ale především specializované korpusy vycházející z online diskusí (Reddit v datasetu WebText2), anebo obecně webových stránek (Common Crawl).

Další aspekt, se kterým GPT pracuje, je práce s parametry, které stojí za vyladěním celého modelu. Zatímco konkurence dokázala pracovat s jednotkami miliard parametrů (velice zjednodušeně spojení mezi neurony), GTP-3 jich má 175 miliard (tisíckrát více než před šesti lety, což jasně ilustruje pokrok v této oblasti). V neposlední řadě je třeba říci, že GPT není jeden konkrétní model, ale jde o rodinu modelů, které mají určité společné vlastnosti a omezení, ale různě nastavené vlastnosti, například co se týče rychlosti výpočtů nebo spolehlivosti.

Specifické pro práci OpenAI, která za vývojem modelu stojí, je důraz na etický rozměr diskuse. Jednotlivé modely jsou sice trénovány tak, že není možné „vidět do způsobu přemýšlení“ neuronové sítě, ale volbou parametrů lze relativně dobře ovlivnit etické zabarvení diskuse – autoři kladou důraz na to, aby GPT nedoporučovala nelegální aktivity, sebepoškozující chování nebo třeba rasismus. To představuje na jednu stranu velice dobré a užitečné nastavení, ale volba jiných etických schémat může být potencionálně mimořádně nebezpečná a uživatel nemusí být schopen ji snadno odhalit.

Limity GPT modelu

Prvním limitem, o kterém se hodně mluví v souvislosti s ChatGPT, jsou tzv. halucinace, tedy skutečnost, že jazykový model generuje odpovědi, které nemají reálnou fakticitu. V návrzích modelu se pracuje s něčím, co se označuje jako „temperature“, který může nabývat hodnot od 0 do 1. Dříve bylo možné ho přímo uživatelsky řídit, nyní nikoliv. V zásadě platí, že lze parametricky nastavit kreativitu odpovědi. Při hodnotě 0 bude systém maximálně zohledňovat pravděpodobnost správné odpovědi a jen málo „kreativně“ vytvářet nová řešení a při hodnotě blížící se 1 se jazykový model soustředí již téměř výhradně na kreativitu a nikoli na fakticitu.

Vhodně nastavený parametr „temperature“ je tedy rozhodující pro kvalitu dialogu (přiměřeně vysoká kreativita a vysoká fakticita), ale v zásadě jde o dva cíle, které jdou přímo proti sobě. To, co se označuje jako halucinace, jsou situace, kdy systém musí pracovat v oblasti, na kterou nebyl přímo trénován a pro který chybí dostatečná faktografie. Obecně – čím více toho o nějaké oblasti ví, tím méně „halucinuje“. Možnost, jak se jí zbavit, spočívá primárně v dotrénování sítě (doučení o určitou oblast) nebo přetrénování (některé struktury učení vedly k tvorbě problematických souvislostí, kterých je třeba se zbavit).

Druhým limitem, se kterým se v GPT můžeme setkat, je, že se model nedokáže průběžně učit. V současné verzi funguje tak, že neuronová síť dostane tréninková data a na základě nich si stanovuje parametry u vstupů do jednotlivých neuronů. Tím, že pracuje s relativně starými (a dobrým) korpusy dat, není schopná reagovat na nové fenomény, jako je covid-19 (má jen rámcovou představu), válka na Ukrajině nebo další aktuální témata. Vývoj GPT modelu není postaven na kontinuálním učení, což zvyšuje odolnost vůči cílené manipulaci, ale snižuje možnost odpovídat na aktuální problémy současné doby. Řešení, které systém ChatGPT nabízí, spočívá v tom, že část informací dokáže dohledávat, což je částečně užitečné, ale opět ne zcela spolehlivé řešení. Nelze ale očekávat, že by v této oblasti dokázal například ChatGPT nahradit běžné vyhledavače, alespoň ne tak, že by se nové informace staly učebním materiálem GPT modelu.

Třetí limit spočívá ve výpočetní náročnosti. Téma, o kterém se v učitelském prostředí příliš nemluví, ale vzhledem k popularitě aplikací využívajících GPT modely bude velice podstatné. Ani společnost jako OpenAI by nemohla své nástroje používat bez toho, aniž by měla investory v podobě Microsoftu, kteří ji „platí“ výpočetním výkonem svých systémů. Obecně zvětšování a zlepšování modelů, ale i jejich praktický provoz, představuje velké téma jak v rovině ekonomicko-technologické, tak také environmentální. Současně náročnost GPT modelů (a podobných) snižuje možnosti jejich specifické implementace do dalších oblastí nebo jejich práci nad specifickými daty.

Čtvrtým limitem je otevřenost, zatímco GTP-2 bylo otevřené, tak na využívání GTP-3 má výhradní licenci Microsoft. Masivně rozšířená dominantní jazyková verze pod uzavřenou licencí je problematická jak pro případnou kontrolu a manipulaci, tak pro další rozvoj konkrétních aplikací. Podobnou uzavřenost můžeme vidět také u GTP-4. Třetí strany mají možnost využívat API, ale to nabízí jen velice omezené možnosti úprav výsledků, změny parametrů nebo trénování dat. Je zaměřené čistě na poskytování služeb.

Pátý limit je nový a zatím není úplně přesně ohraničený. Ředitel OpenAI Sam Altman řekl, že společnost nepřipravuje pátou generaci modelu GPT. Důvodem je, že se nezdá, že by pokračování v současném vývoji – více parametrů a lepší data – generovalo zásadně lepší výsledky. Podle něj jsme nyní narazili na limit v možnostech takto koncipovaných modelů a představa jednoduchého kontinuálního růstu je nepravděpodobná. Podle něj je třeba se soustředit na další cesty vývoje nebo trénování modelů, než je GPT. Vlna společenského zájmu spojená s možnostmi třetí a čtvrté generace, které následovaly rychle za sebou, vyvolala dojem exponenciálního růstu možností systémů s umělou inteligencí. Tato víra ale pravděpodobně není ničím podložená a možná se tak dostáváme do situace, ve které dojde – alespoň na čas – jen k pozvolnému vývoji.

Poslední, šestý limit je spojený s otázkou myšlení takový modelů, jako je GPT. Lze říci, že myslí? Vracíme se k problému čínského pokoje, tak jak ho v roce 1980 popsal Searle. Máme systém, který je fascinující tím, že velice kvalitně pracuje s jazykem a řečí, tedy prvky, které jsme dlouho přisuzovali lidem, téměř jako s ontologicky diferenčními znaky. GPT se učí na existujících datech a vyvozuje z nich své závěry, což ale dělá většina „běžných lidí“. Přesto se domníváme, že existují určité limity, které nám brání v tom říci, že by GPT modely, respektive jejich implementace, myslely. Předně nemají vědomí sebe sama a nemají emoce. Tyto dva aspekty myšlení jsou zásadně důležité. Za třetí – GPT je velice dobrým imitátorem rozhovoru, ale ve skutečnosti příliš nerozumí (nebo nemusí rozumět) ani vlastním odpovědím. To znamená, že je skutečně velice zdatným „knihovníkem“, ale myšlení zatím neprovozuje. Na druhé straně je pro školní prostředí pravděpodobně velkou výzvou najít cesty, jak lidské myšlení podporovat a strukturovat tak, aby takových nástrojů dokázalo využívat a nebylo mu konkurencí.

Perspektivy vývoje

Ještě dříve, než se objevil GTP-3, se o velký společenský ohlas postaraly nástroje, které generovaly obraz (případně zvuk), a to s modely, které pracují s tzv. difuzními modely učení. Se značným zjednodušením lze říci, že technologie stojící za nástroji, jako je Midjourney, DALL·E 2 či Stable Diffusion, fungují tak, že pracují s tréninkovými daty (obrazy) a do těch postupně přidávají šum. Tento postup je iterativní a neuronová síť může v každém kroku sledovat postupné rozmazávání původního (dobře popsaného) obrazu. Generování obrázků je pak vlastně jen inverzním procesem s tím, že potřebujeme mít dobré porozumění pro kvalitní zpracování textového vstupu (což vzhledem k typické strukturaci dotazu není tak náročné). Při každém generování nového obrázku se vloží specifický šum dle zadaného dotazu.

Tento princip difuzního učení zde neuvádíme náhodou, ale jako ukázku toho, že GPT není dnes zdaleka jediným konceptuálním přístupem ke generující umělé inteligenci. Pokud bychom uvažovali o nějaké očekávané obecné generativní umělé inteligenci, pak bychom museli volit mezi dvěma koncepty její realizace:

Lze pracovat s modelem aditivní kreativity, který vychází z modelů vícečetné inteligence. Jednotlivá tvůrčí témata budou rozdělaná na dílčí oblasti a pro každou z nich vytváříme specifické modely nebo konceptuální přístupy. Jak je vidět na porovnání difuzních modelů a GTP, každou skupinu problémů může být vhodné řešit jinak. Takový přístup je lákavý v tom, že ho v podstatě umíme. Současně jednotlivé nástroje lze velice efektivně konstruovat na plnění jednotlivých dílčích cílů. Zásadní slabinou ale je, že jednotlivé složky mysli u reálného člověka, který něco tvoří, se ovlivňují a interferují spolu. Vytvořit oddělený model pro výtvarné objekty a texty znamená připravit se o možnost syntetizující kreativity.
Hledání nových přístupů, které by umožnily pracovat s generujícími systémy obecněji. Zde ale narážíme na řadu praktických problémů, především na extrémní výpočetní náročnost a komplexitu takových modelů. Současně téměř všechny systémy mají právní problém s autorskými právy, případně se sběrem uživatelských dat, což tuto cestu také neulehčuje.

Současně je evidentní, že reálné využití míří ke kombinaci různých systémů využívajících umělou inteligenci. V ChatGPT (s pluginy) si uživatel nechá vygenerovat text a upraví ho v Grammarly. Případně ho ještě před tím nechá přeložit v DeepL, tak aby nebylo možné text detekovat jako plagiát generovaný GPT nástroji. Současně můžeme vidět stále hlubší integraci umělé inteligence do různých softwarových nástrojů (příkladem je ChatGPT v Excelu).

Podle Altmana si budeme muset nějaký čas vystačit s oddělenými generujícími systémy a zlepšování skrze narůstající množství spojení, nebo lepší tréninková data umožní aplikace systémů do dalších oblastí, ale nikoli fundamentální změny ve fungování technologie jako takové. Názorným příkladem takové aplikace může být Auto-GPT. Jde o nástroj využívající GPT-4 (skrze API, za každé volání se platí, což z celého konceptu zatím činí relativně velice drahou záležitost), jehož cílem je plnit různé úkoly, respektive pro ně stanovovat postupy. Cílem celého projektu je automatizace práce v různých odvětvích – od marketingu až po drobný management. Podobných variant využívajících hotové modely, ale implementující je do různých kontextů skrze sofistikovaně upravené vstupy, které jsou zasílané do API, je mnoho a lze v nich vidět jednu z možných cest dalšího vývoje.