NPI Vedeme školu Metodický portál RVP.CZ Zapojme všechny Digitalizace vzdělávání Revize RVP EduRevue MojeEdu

Odborné články Základní vzdělávání Práce s korpusy ve výuce žáků-cizinců

Odborný článek

Práce s korpusy ve výuce žáků-cizinců

20. 6. 2013

Základní vzdělávání

Autor

J. Šindelářová, S. Škodová

Zobrazit více

Anotace

Využití korpusů se jeví jako jeden z moderních technologických prostředků, které dobře vyhovují jednak měnícímu se výukovému paradigmatu. Článek byl vytvořen na základě příručky Metodika práce s žáky-cizinci v základní škole, která vznikla v roce 2012 pod patronací MŠMT. Všechny kapitoly z příručky budou součástí uceleného seriálu článků. Příručka je jako příloha ke stažení přiložena k úvodnímu článku celého seriálu. Některé části kapitol vycházejí ze zkušeností pedagogů, kteří se účastnili e-learningového kurzu v rámci projektu z ESF s názvem Sociokulturní kompetence pro pracovníky škol a školských zařízení (CZ.1.07/1.2.00/08.0104 ). Informace týkající se využití národního korpusu a žákovského korpusu CzeSL pro výuku cizinců vycházejí z projektu Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0259).

4.3.1 Využití Českého národního korpusu ve výuce českého jazyka základní škole

Český národní korpus – ČNK

Korpus je soubor počítačově uložených textů (v případě mluveného jazyka – přepisů záznamu mluvy), který primárně slouží k jazykovému výzkumu. K práci s korpusy slouží speciální vyhledávací program. S jeho pomocí je možné vyhledávat slova a slovní spojení v kontextu a zjistit jejich frekvenci v korpusu i původní textový zdroj. Umožňuje i další zpracování nalezeného (např. abecední třídění apod.). U některých korpusů lze vyhledávat i podle slovních druhů.

Český národní korpus (ČNK) je akademický projekt zaměřený na budování rozsáhlého počítačového korpusu především psané češtiny. Pracuje na něm Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy v Praze (ÚČNK). Od svého založení roku 1994 má ÚČNK na starosti budování ČNK, jeho rozvoj a rovněž činnosti související, zvláště v oblasti výuky a pěstování oboru korpusová lingvistika (http://ucnk.ff.cuni.cz/index.php).

ČNK najdete na: http://ucnk.ff.cuni.cz/index.php

Využití korpusů se jeví jako jeden z moderních technologických prostředků, které dobře vyhovují jednak měnícímu se výukovému paradigmatu.

Namísto tradičního paradigmatu, které představuje učební posloupnost

PREZENTACE – PROCVIČENÍ – PRODUKCE,

nastupuje paradigma, které bychom mohli popsat jako

POZOROVÁNÍ – HYPOTÉZA – EXPERIMENT.

V rámci tohoto paradigmatu, zvláště ve výuce cizích jazyků se žáci nejprve setkávají s jazykovým materiálem, který zkoumají a vytvářejí své vlastní hypotézy o gramatickém a dalším fungování daného jazyka, které potom experimentálním způsobem ověřují.

Obliba práce na počítači ve webovém prostředí je předpokladem, že žáci budou rádi samostatně pracovat s různými typy korpusů, jestliže je učitelé seznámí s touto možností a představí jim, jak korpusové nástroje pro samostatné studium využívat.

Práce s korpusem se může také stát vhodným výukovým prostředkem ve třídě, kde paralelně pracují žáci cizinci s českými žáky.

V příručce popíšeme dva způsoby práce s ČNK v jazykovém vyučování.

Začneme přístupem, který je složitější, a nabídneme podrobný postup, jak se s ČNK naučit pracovat.

Získání přístupu k práci v ČNK

K podrobnému užívání korpusu a vyhledávání jednotlivých výrazů je nutné získat přístup. Volný přístup k ČNK pro nekomerční účely zdarma zprostředkovává každému zájemci Ústav Českého národního korpusu FF UK v Praze.

- Na webové adrese http://ucnk.ff.cuni.cz zájemce vyplní Prohlášení uživatele, v němž se budoucí uživatel zaváže, že data a informace získané v korpusu nepoužije ke komerčním účelům.

- Toto prohlášení je nutno odeslat elektronicky nebo poštou na adresu Ústavu ČNK (elektronicky na e-mailovou adresu ucnk@ff.cuni.cz, poštovní zásilku na adresu nám. J. Palacha 2, 110 00 Praha 1).

- V rozmezí několika dnů obdrží zájemce na svou e-mailovou adresu heslo (password), které je osobní a nepřenosné.

- Pro práci s korpusem je na stejné webové stránce k dispozici společně s návodem k používání a informacemi o instalaci i korpusový manažer BONITO, který si podle jednoduchého návodu nainstalujete do svého počítače. Po zadání přiděleného hesla pak můžete využívat všechny dostupné korpusy a pracovat s daným programem.

- Omezené vyhledávání výrazů je možné i bez registrace. Přímo na webových stránkách ÚČNK (www.ucnk.ff.cuni.cz) v sekci Veřejný přístup je široké veřejnosti zpřístupněn jazykový korpus SYN2000. Tento způsob představíme v druhé části.

Vyhledávání v ČNK

Základní vyhledávání v jednotlivých korpusech ČNK pro potřeby výuky by mělo být pro učitele jazyka poměrně jednoduché.

Nejprve je třeba naučit se pracovat s vyhledávacím programem BONITO.

Veškeré potřebné informace o tomto programu a o vyhledávání dat naleznete na www Ústavu Českého národního korpusu http://ucnk.ff.cuni.cz nebo v příručce K. Kučery Český národní korpus – úvod a příručka pro uživatele.

Základní vyhledávání a nastavení korpusového manažeru – POSTUP

1. Spusťte korpusový manažer BONITO.

2. Hledaný dotaz vepište do políčka Nový dotaz a potvrďte stisknutím klávesy Enter.

Při zadávání dotazu tímto způsobem korpusový manažer vyhledá slovo/slovní spojení v té podobě, v jaké jste ho napsali.

Je také možné v korpusu vyhledávat pomocí tzv. regulárních výrazů – to jsou různé znaky mající v korpusu specifické funkce. (Seznam těchto znaků a jejich užití je vypsán v manuálu korpusu.)

Nejdůležitější pro vás jsou:

- (.) tečka může nahradit libovolný znak ve slovu,

- (*) hvězdička může nahradit opakování znaků ve slovu.

- Příklad: při zadání dotazu ve tvaru: dotaz.*, jsou vyhledána všechna slova začínající na dotaz- (dotazník, dotazníky, dotazníku, dotazovaný, dotazoval se, dotazníkový, atd.)

Korpusový vyhledavač zobrazuje vyhledaná slova na jednotlivých řádcích řazených pod sebe, slova jsou obsažena v textech, ve kterých je vyhledavač detekoval. Těmto řádkům se říká konkordanční řádky.

Při spuštění korpusového manažeru BONITO je program nastavený na zobrazení prvních 50 konkordančních řádků. Jestliže chcete zobrazit jiné množství vyhledaných výsledků, zvolíme políčko Zobrazení – Rozsah a nastavíme počet výsledků, které požadujete zobrazovat.

V korpusu je však také možné nastavit libovolný rozsah kontextu, v němž požadujete vyhledávaný výraz zobrazit. Vyberete Zobrazení – Kontext a zadáte počet znaků vpravo i vlevo od hledaného slova či slovního spojení (tzv. KWIC = key word in context/klíčové slovo v kontextu).

3. Dalším krokem, který můžete při práci s korpusem využívat, je zjištění původního zdroje textu. Můžete si vybrat korpusy publicistické, literární, mluvené řeči, korpusy porovnávající různé jazyky.

Např. korpus SYN2005 obsahuje texty publicistické, beletristické i odborné. Jejich přesnou povahu zjistíme výběrem z menu: Zobrazení – Zdroje a z nabízených možností vyberete opus.txtype. Zdroje textů se pak objeví po levé straně v příslušném konkordančním řádku, jsou zde zastoupeny vždy značkou, jejíž vysvětlivku najdete v jednom z výše zmíněných zdrojů.

4. Pokud chcete s vyhledanými výsledky ještě dále pracovat například v jiném programu (MS Word, MS Excel atd.), korpusový manažer nabízí možnost uložit jak různé statistické informace (např. frekvenční distribuce), tak i celé konkordanční řádky.

Pokud potřebujete uložit celé konkordanční řádky, zvolíte: Konkordance – Uložení. Zde vyberete buď možnost uložit všechny vyhledané řádky, nebo pouze zobrazenou část. Pro přehlednost lze zatrhnout číslování řádků či uložení úplné hlavičky, čímž se uloží také dotaz, který jsme při vyhledávání výrazu použili.

Grafické vytváření dotazu

Program BONITO umožňuje kromě jednoduchého vyhledávání přímým vložením hledaného slova do dotazového řádku také grafickou tvorbu dotazu, jež je vhodný zejména pro tvorbu složitějších dotazů.
Okno Graf dotazu získáte výběrem položky v hlavním menu: Dotaz – Grafické vytváření, kde v menu zadáte nejdříve Nový prvek a zvolíte v nabídce požadovanou položku.
Chcete-li grafickým vytvářením dotazu vybrat jeden z atributů, kliknete nejprve na Atribut a dále na Přidat.
Vyberete konkrétní atribut a do prázdného políčka dané slovo vepíšete. Kliknutím na OK přesunete takto vytvořený dotaz do dotazového řádku a stisknutím klávesy Enter spustíte vyhledávání konkordančních řádků.
Pokud chcete vyhledávat tvary slov podle specifičtějších omezení, kliknete v grafu dotazu na Nový prvek a z nabídky vyberete kritérium, dle kterého požadujete zadané informace vyhledávat. Při plnění jednotlivých úkolů budeme využívat zejména funkci A zároveň. Klikneme na Přidat a zvolíme počet požadovaných Atributů a jejich podobu (word, lemma, tag).

Příklad:

- V korpusu SYN2005 chcete vyhledat podstatná jména rodu ženského, která v 7. pádě množného čísla obsahují skupinu hlásek -ama

- nejprve zvolíte Nový prvek – A zároveň – Přidat

- kliknete znovu na Nový prvek – Atribut

- dvakrát kliknete na Přidat

- jedním atributem bude „word“ a do prázdného políčka vepíšete.*ama.

- druhým atributem bude „tag“ a zapíšete morfologické značky N.FP7.*.(tj. N- jméno, F – femininum, P7 – sedmý pád)

- Po stisknutí OK získáte dotaz ve tvaru [(lemma=“.*ama“)&(tag=“N.FP7.*“)].

- Konkordanční řádky s větami vypadají takto:

[…] jsou toliko prostředky sloužící jinému cíli: Jsou to výplně mezi reklamami,

které mají být zprostředkovány co nejširšímu publiku. (SYN2005, SCI)

[…] silné chrochtavé zvuky, zejména jsou-li soupeři vzájemně zakousnuti

tlamami do sebe. Koala reaguje hlasem takřka na vše […] (SYN2005, POP)

Vyhledávání podle atributů

Korpus SYN2005 má několik tzv. atributů, podle kterých lze v programu BONITO vyhledávat, např: word, lemma, tag, lc, pos, k, g, c.

Je to nastavení různých způsobů, podle kterých bude program jednotlivé dotazy vyhledávat.

Atributy můžete vložit do políčka pro Nový dotaz v podobě např.

[word=“atribut“] nebo jej zvolíme při tvorbě dotazu pomocí grafického

vytváření.

Vyhledávání podle atributu WORD

Pokud sami nic nezvolíte, je předběžně nastaven výchozí atribut „word“, pomocí něhož program vyhledá pouze ten konkrétní tvar slova, na který se dotazujete.

Příklad:

V korpusu SYN2005 zadáme do dotazového řádku slovo atribut. Program vyhledá pouze tento tvar slova, tedy substantivum atribut v1. a 4. pádě jednotného čísla.

[…] výhodu v tom, že zcela jasně odkazuje pouze na konkrétní, zcela určitý atribut zmíněné osoby, v tomto případě postižení v důsledku […] (SYN2005, NOV)

K tomu lze poukázat k dalším souvislostem. Ona kotva, atribut sv. Klimenta papeže, jak dále ukážeme patrona velkomoravského křesťanství […] (SYN2005, SCI)

Vyhledávání podle atributu LEMMA

Chcete-li najít slovo či slovní spojení ve všech tvarech, vyhledáváte ho podle tzv. lemmatu.
Lemma je základní slovníkový tvar slova (u slovesa infinitiv, u podstatných a přídavných jmen, zájmen a číslovek tvar 1. pádu).
Výsledkem hledání jsou konkordance obsahující všechny tvary hledaného slova včetně výskytu slova s velkým počátečním písmenem.

Příklad:

Dotaz zapíšeme do dotazového řádku např. ve tvaru [lemma="atribut"].

[…] Kolumbánem a ten jí pověděl o naší klidné usedlosti, přestože jeho atributem je jeden z posledních trojských ledních medvědů […] (SYN2005, NOV)

[…] byla absolutní, nedělitelná, věčná, mimo čas, nekonečná ve svých atributech. Její vlny a bubliny tančily ve vesmírném kotli, kypěly změnami […](SYN2005, COL)

[…] auto špičkové třídy, nejkvalitnější oblečení a drahé módní doplňky byly atributy jeho úspěchu. Ve volných chvílích, které […] (SYN2005, COL)

Vyhledávání podle atributu TAG

Zvolíte-li možnost výběru atributu „tag“, budete v korpusu SYN2005 vyhledávat podle morfologických značek.
Morfologická značka v daném korpusu obsahuje 16 pozic.
Pozice jedné značky odpovídá jedné morfologické kategorii.
Slovní druhy a jejich gramatické kategorie jsou značeny písmenem nebo číslicí (seznam a označení jednotlivých morfologických kategorií najdete v obou výše uvedených zdrojích).
Jestliže při zadávání hodnot některou z nich neznáte nebo nechcete zadat, nahradíte ji tečkou.

Příklad:

Chceme vyhledat všechna substantiva ženského rodu v 1. pádě jednotného čísla.

Dotaz bude mít podobu [tag=“N.FS1.*“].

[…] členové naší rodiny, měl bych je představit hned na začátku. Moje manželka Eva je křtěná Vltavou. Je to zlatý člověk, starostlivá máma - no a jak […] (SYN2005, NOV)

[…] a tak jsme mnoho krásných chvil na lovu prožili spolu. Jana sice se mnou

párkrát šla na ryby, ale příliš ji to nezaujalo. (SYN2005, NOV)

[…] pochopitelně, k rodině také patří nerozlučně naši pejskové. První byla

Dášenka (jakpak by jinak!), malý hladkosrstý foxteriér. (SYN2005, NOV)

Práce s Českým národním korpusem na ZŠ. Úkoly a řešení.

Práce s ČNK může být v hodinách českého jazyka na ZŠ zajímavým zpestřením. Zvlášť přínosnou se ale jeví při využití pro domácí úkoly nebo pro možnosti diferenciace obtížnosti práce v hodinách čj, což je situace, kdy jsou v hodině přítomni čeští i jinojazyční žáci.

Před samotným plněním zadaných úkolů je třeba žáky seznámit se zásadami a postupy při práci s jazykovým korpusem. Tento úkol může být zajímavým příkladem mezipředmětových vztahů, tj. propojením informatiky a českého jazyka. Jako nejvhodnější se jeví příprava na práci s korpusem v rámci hodin informatiky. Při samotné výuce českého jazyka by již žáci na tuto práci měli být technicky připraveni a věnovat SE jazykové stránce.

Při práci s korpusem na ZŠ je třeba si uvědomovat, že v korpusu se nemusí objevovat pouze kodifikované tvary, ale i tvary nekodifikované.

Cílem vybraných úkolů pro práci s Českým národním korpusem není postihnout nebo procvičit všechny pravopisné jevy, vybrali jsme pouze ukázky, ilustrující několik možností, které jsou vhodné pro využití korpusu na základní škole. Pro žáky cizince je velkou výhodou, že se při práci s korpusem nesetkávají pouze s modelovými větami, ale s větami reálného jazyka, ve kterých jsou hledané výrazy navíc vždy zasazeny do různých kontextů.

Následující úkoly s řešeními mají za cíl ukázat, jak je možno v korpusu vyhledávat. Každý úkol obsahuje formulaci úkolu; popis zadání do ČNK krok za krokem; výsledky, které hledání přineslo; ukázku vět, které se objevily ve vyhledané konkordanci (ukázkové věty mají pouze ilustrovat příklady, které korpusový manažer vyhledal, nereflektují tedy žádný specifický záměr jejich výběru).

Úkol 1 Grafická homonymie S/Z

Vyhledejte homofonní dvojici slov správa x zpráva. Jsou obě tato slova pravopisně správná?

Co tato slova znamenají? V korpusu SYN2005 vyhledejte nejčastější kolokace těchto slov.

Řešení

- Použijte: Grafické vytváření dotazu,

- vyberte Atribut „lemma“

- do příslušného políčka vepište postupně slova.

- Výsledná podoba dotazu je například: [lemma="správa"].

- Výsledek: správa 13917 zpráva 27509

Při zjišťování nejčastější kolokace postupujeme následovně:

- Konkordance – Statistiky – Frekvenční distribuce,

- vyberte Atribut „lemma“, získáte souhrnný počet všech tvarů nejčastějších slovních spojení,

- zadejte pozici -1 od KWIC.

- Výsledek: Nejfrekventovanější je slovního spojení státní (2494 výskytů) nebo veřejná správa (1360 výskytů).

- S různými tvary slova zpráva se pojí přídavné jméno dobrý (775 výskytů) nebo špatný (485 výskytů).

[…] všechno." "Býval to dobrý právník, ale když se oženil, všechen jeho čas pohltila správa jejího panství. Ji nikdy ani nenapadlo, že by mu za to měla platit […] (SYN2005, NOV)

[…] jež se pod názvem Nápor na bednu vysílala hned po hlavních večerních

zprávách. Rešeršéři byli nadmíru spokojení, protože získali spoustu […] (SYN2005, NOV)

Úkol 2

Je možné, aby v českých slovech stálo -ú- také na konci slova?

Pokuste se najít taková slova v korpusu SYN2005.

Zapište nejčastější z nich a následně je roztřiďte podle slovních druhů.

Řešení

- Do řádku pro Nový dotaz vložte dotaz ve tvaru [lemma=“.*ú“],

- případně využijte postup: Dotaz – Grafické vytváření dotazu – Atribut „lemma“.

- Absolutní frekvenci výskytu jednotlivých slovních tvarů zjistíte pomocí zadání: Konkordance – Statistiky – Frekvenční distribuce, zde zadáte Atribut „lemma“.

- Výsledek: Slova s nejvyšší absolutní frekvencí, obsahující -ú- na konci slova:

podstatná jména přejatá do češtiny – iglú, ragú, vúdú,

z toho vlastní jména cizího původu – Pú, Abú, Káthmándú

citoslovce – aúú, júú, búú, vrkú, juchúú,

[…] víko rakve, hlavičky hřebíků ozdobené blýskavými křížky. Masky z houbovitého kamene, líbání iglú jejich čela muselo stačit, než zatloukly hřeby a černý ledovec […] (SYN2005, VER)

[…] tuberkulóza celé rodiny v malých vlhkých bytech, stejně jako ve stanech severoamerických Indiánů, v iglú Eskymáků, v obydlích sibiřských nárůdků.

(SYN2005, SCI)

Úkol 3 Hledání tvarů slovesa podle gramatické kategorie

Vyhledejte v korpusu SYN2005 tvary1. a2. osoby množného čísla podmiňovacího

způsobu slovesa být. Jaké jsou pravopisně správné koncovky tohoto slovesa

v požadovaném tvaru?

Objevují se v daném korpusu i koncovky chybné? Jestliže ano, vyhledejte původní zdroj textu.

Řešení

- Pro vyhledání tvarů slovesa být zadejte: Dotaz – Grafické vytváření – Nový prvek – A zároveň,

- Zvolte Atribut „lemma“, vepište infinitiv „být“,

- dále pak Atribut „tag“, kam do volného políčka vložte morfologické značky pro jednotlivé slovesné kategorie.

- Dotazy budou mít podoby: [(lemma=“být“)&(tag=“Vc.P…1.*“)] pro tvary 1. osoby

- a [(lemma=“být“) &(tag=“Vc.P…2.*“)] pro tvary 2. osoby množného čísla.

- Zdroje textů, ve kterých se vyskytují pravopisně chybné tvary slovesa, vyhledáte přes nabídku: Zobrazení – Zdroje, vyberte možnost Opus.txtype.

- Výsledek:

bychom 20498 - bysme 960 - by jsme 18

byste 14225 - by jste 30

„Nevyznám se tak v lékařské etice a nemocniční praxi. Myslím, že bychom

to měli nechat tady slečně. Ona ví o těch lékařských aspektech víc než my […]

(SYN2005, NOV)

Domy jsou na pilotech jako opatření proti hurikánům, takže dlážděné cesty byste

marně hledali. Všechno je velice jednoduché a život plyne pěkně pomalu […]

(SYN2005, NOV)

Úkol 4 Hledání výskytu koncovek

Vyhledejte v korpusu SYN2005 všechna podstatná jména v množném čísle rodu ženského, která jsou v 7. pádě zakončena koncovkou -ama. Zapište, jak často se vyskytují nejčastěji. Jsou tato slova užita ve spisovném jazyce? Jak správně znějí jejich koncovky? Ověřte v Pravidlech českého pravopisu.

Řešení

- Zvolte: Dotaz – Grafické vytváření – Nový prvek – „A zároveň“.

- Přidejte další Nový prvek – Atribut „word“,

- do prázdného políčka vepište *ama – prvním kritériem pro výběr jsou tedy všechna slova končící touto koncovkou.

- Do stejného dotazu poté přidejte znovu Nový prvek – Atribut „tag“ a vepište konkrétní morfologické značky.

- Po stisknutí OK tak získáte dotaz ve tvaru [(lemma=“.*ama“)&(tag=“N.FP7.*“)].

- Slovní tvary s nejvyšší absolutní frekvencí najdete v menu: Konkordance – Statistiky – Frekvenční distribuce, kde zvolíte jako Atribut „word“.

[…] bačkory a vypelichaný zubní kartáček. My jsme si v něm zas s Honzou

a rukama a holkama hráli. Ve dne. Na to, že někam jedeme, do Austrálie anebo

[…] (SYN2005, COL)

[…] ředitel institutu a slavný houslista, a ten mladý s těžkýma koženýma botama

na nohou a v tradičním oděvu s látkovými knoflíky že je Liou Š´- kchun, známý

[…] (SYN2005, FAC)

Využití korpusu SyD ve výuce českého jazyka na základní škole

Pokud vám práce s ČNK korpusem přesto připadá složitá, pokuste se alespoň o využití korpusu SyD.

Korpus SyD je určen pro všestranný průzkum variant jak v současném jazyce – synchronní část, tak v průběhu jeho vývoje – diachronní část.

K analýze využívá data mluvených a psaných korpusů projektu Českého národního korpusu. Tyto statistiky provádí automaticky, tj. bez toho, aby uživatel formuloval svůj požadavek, stačí tedy, když si požadované vyhodnocení otevřete v příslušném okně.

- Výhodou SyD je uživatelsky přátelské prostředí napodobující Google a nenáročný typ vyhledávání.

- Do vyhledávacího okénka zadáte pouze slovo či jeho tvar, který chcete vyhledat. Zadat také můžete několik slov či jejich variant najednou (maximálně však 8 slov pro jedno vyhledávání), jestliže chcete, aby vyhledávač jejich užití porovnal. Stačí zadat dvě varianty (nebo víc) jednoho jevu, které si vzájemně konkurují (např. ačkoli × ačkoliv, už × již, mimoto × mimo to, sama sebe × sebe sama, stále × pořád × furt apod.).

- S korpusem SyD zvládnou žáci pracovat i bez předběžné systematické přípravy. Práci s korpusem jim může bez problémů ukázat i učitel češtiny.

- Jediným kliknutím mohou žáci získat nejrůznější informace o jazyce, které by jinak velmi těžko hledali ve slovníku, gramatice či pravopisných pravidlech. Některé informace dostupné v SyD, které jsou zajímavé pro osvojování si cizího jazyka, navíc v žádné učebnici najít nemohou.

- Například se žákům zobrazí koláčové grafy informující je o rozložení klíčových slov v psané (SYN2010) a mluvené češtině (ORAL2006 a2008).

- Žákům se zobrazí veškeré gramatické kategorie hledaného jevu.

- Mohou zjistit žánrové rozložení (opět zobrazeno graficky).

- Veškeré informace jsou uvedené také graficky a barevně, takže se žák např. ve frekvenci užívání slov může orientovat už podle zobrazené barvy grafu.

Mraky slov

- Největší přínos k výuce češtiny pro cizince má SyD v zobrazení nejčastějších kolokací pomocí tzv. word clouds.

- Frekvence kolokací je zvýrazněna velikostí fontu a také barvou slov.

- Při kliknutí na kolokaci se zobrazí několik konkordančních řádků a můžeme tak vidět konkrétní větu nebo např. frázi, ve které se vyskytuje dané spojení slov.

- Nejdůležitější informace jsou zobrazeny graficky a více dat pro běžné vyhledávání a učení není potřeba.

- V korpusu SyD nelze rozšířit kontext kolem vyhledávaného slova, což však pro cizince nemusí být nevýhodou.

- Při kliknutí na kolonku KOLOKACE se zobrazí několik konkordančních řádků a můžete tak vidět konkrétní větu nebo např. frázi, ve které se vyskytuje dané spojení slov.

- Pro učitele a žáky staršího školního věku má SyD tu výhodu, že v odstavci v pravé části obrazovky jsou vždy uvedeny podrobné popisy toho, co korpus právě vyhodnotil.

SyD jako on-line gramatika a slovník

- Významnou výhodou korpusu SyD je, že může fungovat jako on-line slovník:

- Neposkytne sice překlad do mateřského jazyka,

ALE

- Jestliže žáci neznají gramatický tvar daného slova, mohou v korpusu zjistit jeho tvar základní, tj. nominativ nebo infinitiv.

- Základní tvar neboli lemma pak bez problémů vyhledají ve svém dvojjazyčném slovníku.

- Pokud totiž z důvodu neznalosti deklinačních paradigmat či z důvodu alternací v základu slova nejsou schopni utvořit základní tvar, není pro ně ani možné dané slovo ve slovníku vyhledat.

Příklad 1 Zobecnění významu na základě kontextu

Na základě vyhledaných kolokací mohou žáci zobecnit význam a uvědomit si rozdíl ve významovém odstínění dvou slov.

Vyhledejte slova díky a kvůli. Jaký je slovní druh těchto slov? S kterými slovy se nejčastěji pojí? Vysvětlete, kdy je používáme. Je rozdíl v jejich používání?

Řešení:

- Veškeré požadované informace se žákům zobrazí na úvodní stránce.

- Nejčastější zobrazené kolokace slova díky: bůh, dotace, podpora, vstřícnost, spolupráce,

- Nejčastější zobrazené kolokace slova kvůli: nedostatek, zranění, podezření, krize

- I bez čtení konkordancí žáci určí, že slovo díky se používá v pozitivním kontextu a slovo kvůli v negativním.

Příklad 2 Třídění kolokací

Vyhledejte: Co můžeme sebrat?

- Žáci vyhledávají mezi kolokacemi pouze objekty slovesa.

- Díky vyhledaným kolokacím, popř. čtením konkordancí, si uvědomí různé významy slovesa: sebrat odvahu (odvážit se), sebrat peněženku (ukrást) apod.

Příklad 3 Komplexní práce při vyhledávání

Přečtěte si věty 1 – 12 z korpusu v části c.

a. Vyberte, co může znamenat podtržené slovo. Odhadněte, které věty

patří ke kterým významům.

i. místnost, kde se učí žáci

ii. ročník ve školním vyučování

iv. velká ulice ve městě

v. společenská vrstva

vi. označení kvality

b. Napište základní tvar slova, 1. pád ................... (varianta pro začátečníky)

Přiřaďte tvary slova TŘÍDA k jednotlivým pádům (varianta pro pokročilé)

1. pád ........................... věta č.: .................

2. pád ........................... věta č.: .................

3. pád ........................... věta č.: .................

4. pád ........................... věta č.: .................

6. pád ........................... věta č.: .................

7. pád ........................... věta č.: .................

c. Utvořte věty pro slovo TŘÍDA pro tvary, které nejsou ve cvičení.

Jsem žák druhé třídy, ale tolik už přece vím.
Na hlavní třídě si všiml obchodu s pánskými oděvy.
Objednal si tedy sedadlo v první třídě.
My, Angličané střední třídy.
Zabočil s autem za hlavní třídu a rychle jel k mostu.
Ten nejspíš letí první třídou.
Poslouchala jsem pod oknem třídy asi deset minut.
Za jejich vilou byla široká třída, po které jezdily dvě tramvaje.
Martin vlastně s námi do třídy nechodil.
Sedíte v kupé druhé třídy s dvojicí neznámých.
Specialista první třídy.
Postoupila do poslední třídy gymnázia.

Příklad 4 Komplexní vyhledávání v korpusu

Vyhledejte nejčastější kolokace slovesa ZTRATIT.

Žákům se zobrazí následující tabulka:

Slovní tvary

frekvence celkem16732
psaný
ztratit 16192
Ztratit 510
ZTRATIT 30

Gram. kat.: Sloveso: infinitiv , dok.100,00%(1673)

Kolokace

co(353)
nic(37)
minuta(14)
tvář(14)
vědomí(12)
kontakt(10)
vteřina(10)

víra(10)

- Jaká kolokace je nejčastější?

- Dosaďte místo zájmena CO konkrétní slova. Co všechno můžete ztratit?

- Je něco CO nemůžete ztratit? Zkontrolujte v korpusu – jaké jsou kolokace pro

- NEZTRATIT?

- Pozorujte příklady kolokací ZTRATIT + CO:

- Všimněte si, KDE stojí slovo CO. Před slovesem? Nebo za slovesem?

- S jakými slovesy se pojí infinitiv ZTRATIT v těchto větách?

- Ve frázi Hleděla jsem se co nejdříve ztratit má ztratit jiný význam než ve všech ostatních větách. Odhadněte, co znamená:

rychle jsem chtěla nastoupit
rychle jsem chtěla odejít
rychle jsem hledala ztracenou jízdenku

Příklad 5 Porovnání mluvené a psané češtiny

Zadání: Hledejte rozdíl v užití slov KNIHA a KNÍŽKA? Kde se tato slova používají?

Z koláčových grafů zřejmé, že slovo KNIHA je častěji používané a to zvl. v psaném diskurzu; slovo KNÍŽKA se častěji vyskytuje v mluveném diskurzu. Slovo kniha používáme častěji než slovo knížka.

Vyhodnocení:

Psaný text:

varianta	abs. f.	rel. frekvence
[1]	6115	88.21%	(50.26 ppm)
[2]	817	11.79%	(6.72 ppm)

Mluvený text

varianta	abs. f.	rel. frekvence
[1]	20	34.48%	(7.51 ppm)
[2]	38	65.52%	(14.28 ppm)

Z korpusu vidíte, že i v psaném diskurzu se slovo KNÍŽKA může použít, v jakém útvaru? (v dopise)

Příklad 6 Hledání kolokací k tematické oblasti

Pro přípravné cvičení k mluvní aktivitě či psaní, můžeme využít korpus pro zmapování lexikální oblasti pojící se s daným tématem. Např. při přípravě na aktivitu čtení, týkající se oblasti vlaků. Učitel vybere klíčové slovo (zde vlak), které zahrnuje tematickou oblast, o které se bude hovořit. Je možné zvolit více slov a práci rozdělit do skupin.

Takto korpus funguje jako brainstormingová varianta, která nabídne i kolokace, které by žáky-cizince nemusely napadnout. Pomáhá tak vytvářet asociační tematickou mapu tématu, realizovanou v podobě konkordančních řádků korpusu.

Tato kolokační a následně i asociační data mohou sloužit jako vodítko při produktivních typech úloh, tj. při psaní a mluvení.

Vlak

jede, přijede, zastaví, pojede, vyjíždí, vjíždí, jezdí, stojí, projíždí, odjíždí, rozjíždí se, pohne se, přejede, zmizí, vyjede, rozjede se, vykolejí, vezl, zůstane, uhání, zastavuje, uhání, blíží se, přepravuje, usmrtí

plný, naložený, půlnoční, směřující, jedoucí, tažený, označený, odjíždějící, jedoucí, projíždějící, odvážející, převážející

autobus(224) cestovat(87) jedoucí(95) jet(538) jezdit(293) motorový(67) nákladní(209) odjíždět(81) odjezd(120) osobní(253) ostře(60) parní(90) projíždějící(55) projíždět(72) rozjetý(55) sledovaný(60) srazit(73) srážka(64) ujet(95) zpoždění(69)

Tzv. Data-driven learning

- Způsob práce, který jsme zde ukázali, je metodologicky označen jako „data-driven learning“[1].

- V tomto přístupu se využívá korpusů přímo ve třídě při jazykovém vyučování: studenti buďto analyzují korpusová data nebo učitel využívá korpusová data pro exemplifikaci určitých jevů.

- Metoda DDT vznikla na univerzitě v Birmingmau, její iniciátor Tim Johns, zde působil na přípravách prvního slovníku na bázi korpusových dat (Cobuild Dictionary).

- Postupu výuky pomocí DDT je založen na induktivní metodě, tedy na aktivním vyhledávání jedné jazykové jednotky v korpusu.

- Žáci-cizinci pomocí korpusu shromáždí data, která jim dávají příležitost objevit příklady užití jazykového jevu v reálném jazyce.

- Na základě shromážděných příkladů se následně pokusí formulovat pravidlo o užití daného jazykového jevu.

- DDL je možné využít při skupinové nebo individuální výuce i mimo tradiční výuku, např. ve formě e-learningu nebo jako domácí cvičení.

- Ve výuce češtiny je využití DDL zvlášť přínosné pro žáky se slovanským mateřským jazykem a pro studenty alespoň na úrovni B2, pro které je významným přínosem při rozšiřování slovní zásoby a v práci s reálnými texty rodilých mluvčích.

Tzv. ŽÁKOVSKÉ KORPUSY a jejich využití ve výuce českého jazyka na základní škole

Pro jazykové vyučování však není jen základním poznatkem, co říkají rodilí mluvčí, důležité jsou také typické obtíže žáků určitého jazyka, nebo raději určité skupiny žáků tohoto jazyka. Na základě korpusů je možné jednak srovnávat žákův mateřský jazyk (L1) s cílovým jazykem, abychom identifikovali pro výuku obtížné jazykové oblasti; nejlepším způsobem, který pomůže vytipovat tyto obtíže je analyzovat jazyk produkovaný určitou skupinou žáků.

Jedním z významných lingvodidaktických produktů, který napomáhá rozvoji jazykového vyučování, je v posledních dvaceti letech vznik tzv. žákovského korpusu,[2] čili jak uvádí Geoffrey Leech „zdroje užitečného pro každého, kdo chce zkoumat, jak se lidé učí jazyky a jaké jsou cesty k tomu, aby se je učili lépe“.[3]

Žákovský korpus je soubor elektronicky uložených autentických textů produkovaných žáky cizího nebo druhé jazyka (srov. Grangerová, 2003). Tyto korpusy se ukazují být podstatným zdrojem i nástrojem pro analýzy nabývání cizího jazyka v akademické oblasti, funkčním prostředkem pro přípravu učitelů i východiskem pro úpravy výukového procesu a vývoj nových pedagogických nástrojů.

K hlavním důvodům tzv. budování žákovských korpusů patří snaha shromáždit objektivní data, pomocí nichž lze popsat žákovský jazyk. Tyto specifické korpusy jsou důležité, neboť poskytují informace o určitém druhu odchylky od standardu, tj. o specifikách žákovského jazyka určité skupiny mluvčích, o jeho odchýlení od standardu cílového jazyka, tak jak je vymezen rodilými mluvčími.

Žákovský korpus češtiny jako druhého jazyka – CzeSL

Žákovský korpus pro češtinu – CzeSL (Czech as Second Language) vznikl na Technické univerzitě v Liberci ve spolupráci s Ústavem teoretické a komputační lingvistiky FF UK v Praze v rámci projektu Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0259)[4].

Korpus je založen dominantně na jazykových projevech tří komunit – vietnamské, ruské a romské. Do korpusu jsou však výběrově začleňovány i projevy mluvčích s jiným jazykovým pozadím (francouzština, němčina, ukrajinština, mongolština apod.). Složení korpusu ukazuje tabulka:[5]

Typ textů	Počet textů	Počet pozic (slova +interpunkce)
ciz – eseje cizinců	8 863	1 314 901
kval – odborné kvalifikační práce	176	731 816
rom –slohové práce romských žáků	4 420	428 161
CELKEM	13 459	2 474 878

Tento korpus je veřejně dostupný na adrese http://ucnk.korpus.cz/czesl-plain.php.

Co v korpusu najdete?

Korpus je užitečný pro učitele, jestliže se chtějí seznámit s česky realizovanými projevy žáků určitého věku, mateřského jazyka, dovednostní úrovně.

Český žákovský korpus pokrývá jazykové projevy od úplných začátečníků (tzn. od úrovně A1 podle SERR[6]) až po žáky pokročilé (úroveň C). Skládá se z autentických projevů mluvených i psaných, a reprezentuje tak různé aspekty komunikační kompetence žáků. Zároveň je CzeSL vybaven různým značkováním, které umožňuje vyhledat o jednotlivých textech různé informace týkající se jejich autorů, procesu vzniku. Do tohoto sociologického značkování jsou zahrnuty následující parametry:

- Informace týkající se respondenta

Např. věk, pohlaví, úroveň znalosti jazyka reflektovaná žákem, délka institucializovaného studia jazyka, o informace ohledně časové dotace jazykové výuky, způsobu studia, studijním materiálu, žákova znalost dalších cizích jazyků atd.

- Informace týkající se materiálu

Jednotlivé projevy zahrnované do žákovských korpusů jsou parametrizovány také vzhledem k povaze textu a k podmínkám jeho vzniku. Zda je text součástí nějaké jazykové zkoušky, zda byl zadán povinný rozsah, byla-li tvorba textu časově limitována, příp. měl-li respondent k dispozici referenční pomůcky, jako je překladový slovník, monoligvální výkladový slovník ap.

- V tomto korpusu lze sledovat např. to, jak vypadají texty na určité téma psané např. mongolským žákem začátečníkem a porovnat je s textem na stejné téma od žáka ukrajinského původu. Stejně tak je možné vyhledávat typické chyby žáků s určitým jazykovým pozadím.

Ačkoliv žákovské korpusy slouží doposud výzkumným účelům, existují i pokusy o jejich užití v nepřímé i přímé výuce.

V zahraniční pedagogické praxi se doposud osvědčilo využití tohoto typu korpusů pro upevňování osvojených znalostí pokročilejších při cvičení formou korekce. V takových cvičeních učitel vybere z korpusu věty obsahující procvičovaný gramatický či lexikální jev a nechá žáky věty opravovat a případně komentovat typ chyb.

Jiným typem cvičení může být oprava celého textu, tak jak ji ukazuje následující příklad cvičení.

Příklad 1 Korekce vybraného typu chyby a reformulace pravidla užití daného jevu.

Zadání:

Přečtěte si text, který napsal žák z Ukrajiny. Čísla v textu jsou vždy za slovem, kde udělal chybu. Řekněte, jaké jsou to chyby a opravte je.

Mám moc radá (1) sport. Hrájeme (2) moc venkovní sporty. Ráno jezdím na kole do škóly (3) s mym (4) kamaradem (5). Nemůžeme lyzovat (6), sáňkovat nebo běhat na lýžich (7), protože tu není sníh. Ale, v letě (8), když je teplo, plaváme (9) v bázeňe (10) (11), na řece nebo na moře. Mám ráda fotbal a obvykle jdu na fotbalové hříště (12), ale nehraju fotbal dobře. Ještě hrajeme volejbal a basketbal. Golf a baseball nejsou na Ukrajině populární. Hrajeme taky kulečnik (13), šachy a stolní tenis. Myslím že, šach je dobrý duševní sport. Múžu (14) trochu hrát šachy, ale nemužu (15) bruslit. Na podzim nesportujeme moc, protože velmi moc prší. Pak, dívám se sport na televízi (16).

Žákovský korpus CzeSL obsahuje tzv. chybovou anotaci, tzn., že jsou v něm definovány typy chyb, kterých se žáci dopouštějí. Tyto chyby pak lze v korpusu vyhledávat. Protože tento korpus byl dokončen teprve v roce 2012, nejsou ještě všechna data korpusu chybově anotována.

[1] Johns, T. (1991) Should You Be Persuaded. Two samples od data-driven learning matherials. In Johns, T. – King, P. (eds.) Classroom Concordancing. English Language Research Journal 4. Birmingham: Birmingham University, s. 1–13.

[2] Termín žákovský korpus je terminologicky paralelní ke světovému označení learner corpus, resp. lernerkorpus. Pomíjí tradiční konotace, které výraz žák v češtině má, a chápe jej ve shodě se zahraniční terminologií jako osobu učící se cizí jazyk, a to bez ohledu na věk, příp. jiné sociologické proměnné.

[3] Viz Leech, 1998: xvi.

[4] Projekt byl podpořen Evropským sociálním fondem v rámci Operačního programu vzdělávání pro konkurenceschopnost.

[5] Český národní korpus - CzeSL. Ústav Českého národního korpusu FF UK, Praha. Cit. 18. 11. 2012, dostupný z WWW: <http://www.korpus.cz>.

[6] SERR = Společný evropský referenční rámec pro jazyky. Viz http://www.msmt.cz/mezinarodni-vztahy/spolecny-evropsky-referencni-ramec-pro-jazyky?lang=1

Článek je zpracován na základě metodické příručky METODIKA PRÁCE S ŽÁKY-CIZINCI V ZÁKLADNÍ ŠKOLE, Šindelářová, J., Škodová, S., Praha: MŠMT, 2012. ISBN 978-80-7414-559-9.