Domů > Spomocník > Základní vzdělávání > NewtonDictate – ovládání počítačů hlasem
Odborný článek

NewtonDictate – ovládání počítačů hlasem

29. 6. 2010 Základní vzdělávání Spomocník
Autor
Vojtěch Mrózek

Anotace

Článek o programu NewtonDictate, který je schopen v reálném čase převádět mluvené slovo do textové podoby.
„Texty v češtině lze vytvářet už pouze diktováním do mikrofonu. Tuto zprávu přivítali všichni, kdo nemají rádi "datlování". Alternativa k psaní na klávesnici již bezmála dva roky významně usnadňuje práci všem, kteří vytvářejí delší texty s pomocí NewtonDictate, nejvýkonnějšího systému pro rozpoznávání hlasu a přepis lidské řeči do textové podoby v češtině.“ (Tisková zpráva společnosti Intel)
K tomu, že se o tento program zajímám, mám dobrý důvod. Narodil jsem se jako neslyšící do rodiny slyšícím rodičům a v prostředí slyšících se stále pohybuji. Od útlého dětství jsem v komunikaci s lidmi odkázaný na využití zbytků sluchu prostřednictvím sluchadel a zároveň na odezírání z úst. Protože já sám neslyším, chtěl jsem najít nějaký program, který by mi usnadnil práci při zapisování mluvené řeči z přednášek či seminářů. Poslouchat přednášejícího a současně zapisovat poznámky totiž nestíhám. Program NewtonDictate má však ve skutečnosti značný půvab i pro slyšící uživatele. Vypadá to, že se rozpoznávání řeči brzy stane zcela běžným způsobem vkládání dat do počítače.
Pokusím se s tímto programem trochu blíže seznámit i vás. Vznikl jako produkt spolupráce mezi vědecko-výzkumným týmem SpeechLab pod vedením Prof. Ing. Jana Nouzy, CSc. na Technické univerzitě v Liberci a společností NEWTON Technologies, a.s. Web Diktovani.cz o něm uvádí toto: „Výrazně rozšiřuje rodinu aplikací založených na využití hlasových technologií, které byly již dříve zavedeny do praxe a našly si své uživatele, např. MyVoice - systém hlasového ovládání počítače pro osoby s motorickým postižením z roku 2005, doplněný později o diktovací program MyDictate určený pro stejnou cílovou skupinu, či unikátní modulová platforma ATT (Audio Transcription Toolkit) využívaná od roku 2006 pro přepis a titulkování televizních programů.“
Program NewtonDictate může být pomocníkem všem, kteří přepisují dlouhé texty. Jeho nasazení zároveň výrazně zvyšuje efektivitu práce. Lze ho využívat například v těchto oblastech:
· státní správa;
· soudy;
· média (např. titulkování televizních pořadů);
· záznamy z tiskových konferencí, porad a jednání;
· diktování textů;
· přepisování textů;
· on-line titulkování;
· vyhledávání v audio a video archivech.
NewtonDictate obsahuje více než 500 tisíc slov, a to znamená, že pokrývá 98% českých slov a slovních tvarů! Překvapilo mě, že před jeho použitím není třeba provádět adaptaci na hlas uživatele. Program údajně rozpozná jakéhokoli mluvčího se zdravým hlasem. Adaptace je nicméně možná, program se naučí rozumět i tomu, kdo má mírnou vadu řeči nebo nezřetelně vyslovuje.
Výrobce programu mě ujistil, že program rozumí většině hlasů zcela bez problému. U osob, které mají mírnou hlasovou vadu - např. ráčkuji, je možné vytvořit si pomocí hlasové adaptace vlastní hlasový profil, který potom řeč rozpoznává i s touto
"nepřesnou" výslovností. Jinak je pochopitelně nutné mluvit plynule a dobře artikulovat. Čím zřetelnější projev, tím lepší výsledek přepisu. Při dodržení základních pravidel diktujeme běžným hlasem text do mikrofonu, a ten se ve zlomku vteřiny objevuje přepsaný na displeji. Následně je možné pohodlně udělat korekturu, je-li třeba. Připojení k internetu je nutné jen po instalaci, a to jen jednou, kvůli ověření licence.
Informoval jsem se také na technické podmínky, které musí být pro bezproblémový chod programu NewtonDictate splněny. Zde je minimální doporučená konfigurace:
· procesor Intel Core 2 Duo 1.8 GHz nebo Intel Pentium 4 na 2.4 GHz a lepší,
· OS Windows XP, Windows Vista, Windows 7,
· 1 GB RAM pro Windows XP, 2 GB RAM pro Windows Vista a Windows 7,
· 450 MB volného místa na pevném disku (pro obecný slovník),
· běžná zvuková karta,
· kvalitní mikrofon a sluchátka (např. i-tec USB Stereo Headset HS-741),
NewtonDictate má tyto základní vlastnosti:
· Umí pracovat s automatickým formátováním čísel a symbolů včetně interpunkce.
· Text na obrazovce se objevuje prakticky okamžitě, lze jej tedy očima sledovat a průběžně pokračovat v diktování.
· Aplikace umožňuje opravy a editaci textu.
· Funguje i jako elektronický diktafon - součástí záznamu je zvuková stopa, která významně pomůže při korektuře textu.
· Export je možný do jakéhokoliv textového a audio formátu.
· Aplikaci je možné integrovat do stávajících systémů v organizaci.
· Umožňuje přepis řeči v reálném čase, ale i ze zvukového záznamu (diktafon, audio stopy, zvukové archivy).
Myslím si, že "elektronické zapisovatelce", do budoucna neodoláme. Já sám bych rozhodně měl zájem si tento program vyzkoušet. Přepis školních přednášek by pro mě asi byl velkým přínosem. Jenže na druhou stranu, tento program by zaznamenal úplně všechno včetně hlasů studentů, a tak by asi bylo obtížné se v záznamu orientovat. To by možná mohla být nevýhoda. Na druhou stranu by se mi snad díky mému hendikepu nestávalo, že mi něco důležitého uteče, nezachytím zadání úkolu apod.
Demo je na následujícím videu:

 

Na úplný závěr jsem si schoval cenu. Je celkem vysoká - v základní verzi 24 600 Kč bez DPH. Jako student si nemohu dovolit ji zaplatit. Bohužel to znamená, že si tohoto "pomocníka" zatím budu nucen odepřít.
Zdroje:
· NEWTONDictate – Diktování do počítače, Hlasové technologie, Diktovani.cz, 28.6.2010
Poznámka:
Tento příspěvek vznikl jako výstup předmětu Didaktika informační a komunikační technologie 02 na Katedře informačních technologií a technické výchovy UK Praha, Pedagogická fakulta.

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Autor
Vojtěch Mrózek

Hodnocení od uživatelů

Článek nebyl prozatím komentován.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.