Počítačová syntéza řeči, systémy TTS
Zkušenosti s počítačovými hlasy
 Tisk

Zkusenosti Jara Tichy, upr. Kocur

Důležitost schopnosti čtení textu

Člověk, jehož handicap mu znemožňuje číst, se v každodenním životě setkává s mnohými překážkami. Bez schopnosti přečíst text nemůže získávat informace z poznámek či odborné literatury. Proto je pro takto handicapovaného studium značně komplikované. Takto postižený člověk se také setkává s obtížemi při hledání zaměstnání, protože pro získání téměř každé pracovní pozice je schopnost čtení podmínkou. Ani provozování zájmových aktivit není jednoduché. Například sestavit model letadla není možné v případě, když si o tom nic nepřečtete.
Uvedené příklady dokazují, že schopnost číst je pro začlenění do společnosti opravdu velice důležitá. S těmito problémy se v každodenním životě skutečně setkávají lidé se zrakovým postižením a také lidé trpící těžší formou dyslexie. V současné době však mohou do jisté míry takto postiženým pomoci počítačové hlasy. Proto bych se chtěl v tomto článku počítačovým hlasům věnovat. Chtěl bych se zaměřit především na to, jakým způsobem by měly být využívány, aby handicapovaným mohly efektivně pomoci.

Několik základních pojmů

Počítačové hlasy jsou programy převádějící text v počítači na lidskou řeč. Někdy se také označují jako syntézy, syntetizéry, syntezátory, syntetizátory. Před tato označení se často přidává přídavné jméno hlasové či řečové. Počítačové hlasy se také označují jako tts systémy či jenom tts, což je zkratka, která vznikla z počátečních písmen anglických slov text to speech.
Počítačové hlasy potřebují nějakou aplikaci, která jim pošle text. Jedná se většinou o screen-readery. Pojem screen-reader se překládá jako odečítač. Screen-raeder je program, který počítačovým hlasům odešle text z celého počítače. Někteří uživatelé využívají pouze screen-reader, jiní místo něj speciální makra či editory, které také mohou počítačovým hlasům text odeslat. Jsou i ti, kteří využívají obou možností.
O aplikacích, které posílají text počítačovým hlasům, se často hovoří jako o klientech, neboť odesílají data. O počítačových hlasech se hovoří jako o serverech, neboť data naopak přijímají. Počítačové hlasy se především se screen-readery označují za hlasový výstup. Počítačové hlasy a také programy, které jim text odesílají, musí být vybaveny důležitými funkcemi k tomu, aby zrakově postiženým či dyslektikům mohly pomoci.

Důležité funkce softwarových produktů posílajících počítačovým hlasům různým způsobem text

Spustit a zastavit čtení

Téměř každá aplikace, která hlasovým syntézám odesílá text k předčítání, je vybavena funkcí přečíst text celého dokumentu a funkcí zastavit čtení. Tyto funkce jsou velmi často využívané, neboť umožňují snadné a rychlé převedení novinového článku či knihy v digitální podobě na ,,lidskou řeč". Pro studium složitějších textů, např. studijních materiálů, však nestačí.

Čtení po úsecích

Programátoři, zabývající se vývojem aplikací, které si kladou za cíl zpřístupnit za pomoci počítačových hlasů i složitější texty, např. studijní materiály, vytvořili funkci, která se nazývá ,,Čtení po úsecích". Právě možnost nechat si přečíst text po menších jednotkách je pro studium složitějšího dokumentu nezbytná. Představme si například, že bychom chtěli prostudovat složitou právní normu. Skládá se z několika hlavních vět, na které navazují věty vedlejší. Student, který nemá problémy se čtením, si ji přečte několikrát. Zaměří se zvláště na některé pasáže, které jsou pro porozumění tohoto složitého právního ustanovení nezbytné. Student, který je neschopen číst, musí mít možnost nechat si tuto normu přečíst po úsecích, aby jí porozuměl. Dá se říct, že funkce "Přečíst text dokumentu" nahrazuje oči, ale funkce "Čtení po úsecích" nahrazuje jejich pohyb.
To, že je tato funkce významná, nepotvrzují pouze mé vlastní zkušenosti. Každý odečítač, zpřístupňující text v počítači těžce zrakově postiženým, a aplikace, jež zpřístupňují text lidem s dyslexií, jsou těmito funkcemi vybaveny. Důležitost možnosti nechat si přečíst text po úsecích byla navíc zdůrazněna na konferenci firmy Dolphin, která se konala na Západočeské univerzitě.
Je velmi obtížné zvolit, jak velký by daný úsek měl být. Programy většinou disponují třemi typy úseků, které se od sebe liší velikostí. Jedná se o odstavce, věty a jednotlivá slova. Je také důležité umožnit uživateli, aby se hlas po přečtení daného úseku zastavil a aby si uživatel mohl zvolit, zda chce přečíst další úsek či nikoli.
Myslím si, že problematika úseků je natolik složitá, že by bylo dobré pokusit se vytvořit jakýsi standart či návod, který by firmy při vývoji svého softwaru mohly použít.

Obr1
Na obrázku je předčítací okno softwaru Dolphin, které umožňuje čtení textu po úsecích. Jako typ úseku je vybrána věta. Je možné si zde také všimnout specifického zbarvení pozadí a textu, které některým zrakově postiženým vyhovuje daleko více než standardní rozvržení barev ve Windows.

Další funkce

Mezi další velmi důležité funkce patří možnost zastavit čtení. Uživatelé, kteří využívají čtecí zařízení, také požadují, aby jejich software umožňoval nastavení výšky a rychlosti hlasu. Dalšími velmi využívanými funkcemi jsou:
a) Možnost zvolit si, zda by měla být předčítána interpunkce
b) Možnost zvolit si, jakým způsobem by měl počítač při psaní číst jednotlivá písmena nebo celá slova
c) Růžné možnosti zvýrazňování čteného textu (tato funkce je velice důležitá pro slabozraké, osoby se zbytky zraku a dyslektiky)

Důležité funkce počítačových hlasů

 

Rychlost odezvy

Další důležitým atributem, na který je nutné dbát, je rychlost odezvy. Jedná se o dobu, která uplyne mezi dvěma časovými intervaly. První z nich je čas, ve kterém uživatel zadal příkaz k přečtení textu. Druhým z nich je čas, kdy uživateli začal být text předčítán. Pro těžce zrakově postižené a především pro nevidomé je doba odezvy nesmírně důležitá. Dokladem je celá řada příspěvků od zrakově postižených na internetových konferencích, které se zabývají tímto tématem. Takto handicapovaní považují tuto vlastnost za velice klíčovou při pořizování počítačového hlasu. Pro lidi trpící dyslexií je doba odezvy méně rozhodující, ale i zde by měla být poměrně krátká. S tímto problémem se potýkají programátoři na celém světě. U kvalitních počítačových hlasů je doba odezvy problematická. V současné době je již ale poměrně dobře řešitelná. Počítačový hlas, kterému by převod textu na řeč trval příliš dlouhou dobu, syntetizuje text po částech. Nejdříve převede na řeč pouze malou část textu a začne ji přehrávat. V průběhu přehrávání zároveň syntetizuje další malou část. (Je jasné, že tyto procesy neprobíhají v počítači paralelně, neboť v počítači téměř nic paralelně neprobíhá. Proces syntézy a přehrávání se velmi rychle střídá.)

Podpora SAPI

SAPI je rozhraní, které se standardně vyskytuje ve Windows XP, Windows Vista a Windows 7. Toto rozhraní podporuje syntézu řeči a rozpoznávání řeči. Vyskytuje se ve dvou variantách SAPI4 a SAPI5. V případě, že má syntetizér podporu SAPI4, je jej možné propojit s aplikací, ve které je také podpora SAPI4 implementována. Totéž platí i pro SAPI5. Rozhraní SAPI4 a SAPI5 však vzájemně kompatibilní nejsou. Není například možné propojit aplikaci, do které je implementována podpora SAPI4 s hlasem, který má pouze podporu SAPI5.

Inteligentní hláskování

Především pro těžce zrakově postižené je důležité, aby počítačový hlas správně hláskoval zkratky. Když se např. handicapovaný pohybuje v Průzkumníku, nemůže mu počítačový hlas přečíst "místní disk c", ale měl by mu přesít "místní disk cé".

Proces syntézy a typy syntetizérů

Nyní se dostáváme k tomu, jakým způsobem syntéza řeči probíhá. V současné době se používají dva základní postupy. První postup je založen na následujícím principu. V počítači jsou simulovány orgány člověka vytvářející lidskou řeč. Tento postup se v komerční oblasti příliš nepoužívá. Je však velmi slibný, neboť by po jeho rozvinutí bylo možné vytvořit syntetickou řeč jakéhokoli člověka.
Druhý postup je založen na jiném principu, do počítače se nahrají věty. Ty jsou pak rozstříhané na řečové jednotky, např. slabiky. Tyto jednotky pak syntetizér skládá za sebou podle toho, jaký text dostane. Melodii výsledné řeči pak upraví pomocí algoritmů tak, aby zněla co nejvíce přirozeně. Tento postup je v současné době nejvíce rozšířen jak ve výzkumu, tak v komerčním sektoru. Proto zde krátce popíši dva v současné době nejpoužívanější postupy a představím jeden nový.

Klasické syntézy

Klasické syntézy skládají text z řečových jednotek. Výsledný hlas poté upraví tak, aby zněl co nejpřirozeněji. Pro kvalitu tohoto počítačového hlasu jsou rozhodující parametry

a) Řečové jednotky
Řečové jednotky musí být co nejdelší (kvalitnější jsou ty syntézy, které skládají hlas ze segmentů blížících se slabikám, než ty, které skládají hlas ze segmentů, blížících se jednotlivým písmenům)

b) Jednotlivé řečové segmenty
Jednotlivé řečové segmenty musí být dobře nahrané a vystřižené.

c) Algoritmy upravující větnou melodii
Ty musí být dobře naprogramované

Unit selection

Kromě počítačových hlasů, které vytvářejí syntézu řeči tímto způsobem, se v současné době používá metoda unit selection. Přístup unit selection je založen na následující metodě. Každá řečová jednotka se v inventáři vyskytuje několikrát. Např. slabika "na" tam je 30krát. Byla vystřižena z různých částí nahraných vět, a proto každá nahrávka této slabiky trochu jinak zní. Když počítač dostane text, ve kterém se slabika "na" nachází, vybere tu jednotku, která se pro daný úsek textu nejvíce hodí.
Metoda unit selection má své výhody i nevýhody. Umožňuje vytvořit počítačové syntézy, které zní velice přirozeně. Její nevýhodou však je, že počítač vždy správně nevybere vhodnou jednotku a dochází tak k propadu kvality. Počítačový hlas pak někdy "mutuje" podobně jako člověk v období puberty. Četnost propadů závisí na tom, do jaké míry jsou "vychytávány". Nikdo ale v současné době nepřišel na způsob, kterým by propady kvality zcela u této metody odstranil. U této metody je také problematičtější měnit rychlost předčítaní textu.
I pro tento přístup je důležitá délka jednotek, jejich kvalitní vystřižení a také algoritmy upravující melodii řeči.

Skryté Markovovy modely

Jedná se o technologii, která byla nejlépe rozvinuta v Japonsku. Zde došlo k jejímu velkému zlepšení, které umožňuje vytvořit velmi přirozenou řeč z poměrně malého množství segmentů. Japonští vědci přednosti své technologie demonstrovali tak, že vystřihali řečové segmenty z projevu George W. Bushe a sestavili počítačový hlas tohoto amerického prezidenta, který zní velice kvalitně. Z toho je jasné, že japonští vědci si výsledky svého výzkumu budou velice přísně hlídat a nebudou se o něj s nikým dělit.

Nedostatky počítačových hlasů

Počítačové hlasy mají ale svá omezení. Zatím žádná aplikace nedokáže zpřístupnit bilingvní text. Když student např. překládá z angličtiny do češtiny a zvolí si čtení českým hlasem, čte tento program i anglické věty česky. Ty jsou pak nesrozumitelné. Když si zvolí anglický hlas, budou mu zas velmi špatně předčítány české věty. Nevidomí studenti tento problém mohou vyřešit tím, že při práci s bilingvním textem použijí braillský řádek, na kterém si přečtou vše, jak potřebují. Pro studenty, kteří trpí těžkou formou dyslexie, zatím neexistuje žádná pomůcka, která by jim bilingvní text zpřístupnila. Úspěšné absolvování jazyků je pro takto handicapované velmi obtížné, a někdy dokonce nemožné.
Další omezení se týká zpřístupnění matematických vzorců, chemických rovnic, logických formulí a zdrojových kódů u programovacích jazyků. V případě, že se handicapovaný při svém studiu v nějakém předmětu s tímto učivem setká, nestačí mu pouze počítačový hlas pro zpřístupnění informací. V těchto případech se postupuje většinou tak, že student využívá nějaký další nástroj, který mu spolu s počítačovým hlasem informace z daného oboru zpřístupňuje. Těžce zrakově postižení většinou využívají braillský řádek. Studentům, kteří mají těžkou formu dyslexie, zatím žádný software bohužel neumožní efektivně informace z těchto oborů zpřístupnit.

Matematika a počítačové hlasy


Jak bylo uvedeno již výše, počítačové hlasy neumožňují zpřístupnit matematické vzorce, a proto je absolvování matematických předmětů pro zrakově postižené studenty velice obtížné. V současné době se tento problém snaží vyřešit několik výzkumných týmů i v České republice. Nevidomým, kteří umí počítat v Braillově bodovém písmu, se snaží pomoci pracovníci střediska Teiresiás, kteří upravili matematický editor Lambda pro české prostředí. Tento program matematické výrazy převádí do hmatového a zvukového výstupu. Je zajímavé, že studenti, kteří znají Braillovo písmo a kteří proto mohou spolu s hlasovým výstupem využít i možnost převodu matematického vzorce do bodového písma, tento editor využívají. Studenti, kteří v bodovém písmu počítat neumějí, tento editor odmítají, protože jim při zpřístupňování matematiky nepomáhá. To dokazuje, že samotný počítačový hlas matematické vzorce zpřístupnit nedokáže.
Tento editor je kromě mnohých dalších pozoruhodných vlastností zajímavý tím, že dokáže odesílat text k předčítání dvěma způsoby:
1. Posílá matematické vzorce převedené na text zvolenému syntetizéru přes rozhraní SAPI.
2. Posílá matematické vzorce převedené na text přímo screen-readeru Jaws a ten jej posílá přes SAPI zvolenému počítačovému hlasu. Díky tomu je možné, aby nevidomý poslouchal matematické vzorce počítačovým hlasem se svým specifickým nastavením frekvence, rychlosti a hlasitosti, které je zvyklý poslouchat. Tato možnost je mezi nevidomými velmi oblíbená a využívaná.

 

Obr2
Obrázek editoru Lambda
převzato z http://www.teiresias.muni.cz/czbraille8/?strana=lambda

Další metody, které by zrakově postiženým a studentům s dyslexií pomohly při zpřístupňování matematických vzorců a logických formulí, vyvíjí vědecký tým na Západočeské univerzitě v Plzni v rámci projektu Organon. Tento projekt si klade za cíl vytvořit webovou aplikaci, která by měla kombinovat zvýrazňování matematických vzorců a logických formulí s jejich předčítáním. Právě kombinace zvukového a obrazového výstupu by mohla pomoci především studentům slabozrakým a se zbytky zraku. Také by měla pomoci studentům s těžkou formou dyslexie, kteří kvůli svému handicapu nemohou logické formule přečíst.
Vědecký tým na katedře kybernetiky ZČU v rámci projektu Organon rovněž testuje nové možnosti převodu matematických vzorců a logických formulí do zvukové podoby za použití změn v prozodii, tj. ve výslovnosti, které by umožnily lépe vnímat logickou formuli pomocí sluchu. Studenti by tak mohli sluchem poznat, jak hluboko v dané formuli se vyskytuje jimi sledovaný výraz či kam až platí negace výrazu. Webová aplikace, která je vyvíjena v rámci projektu Organon, by také měla být napojena na editor Lambda, aby byly matematické výrazy zpřístupněny i zcela nevidomým. Zároveň by měla být propojena s wordovským makrem BlindMoose2, neboť i tento software v současné době nevidomým s převodem matematických vzorců a logických formulí pomáhá, protože je převádí na braillský řádek do bodového písma.

České počítačové hlasy

Kvalita českých počítačových hlasů a jejich přehled

Kvalita českých počítačových hlasů je nižší oproti zahraničním produktům, což některým uživatelům vadí. Starším počítačovým hlasům, které jsou vytvářeny skládáním segmentů, je vytýkána jejich nepřirozenost a monotónnost. Novým počítačovým hlasům, které jsou vytvářené technologií unit selection, jsou vyčítány propady v kvalitě. Tyto moderní počítačové hlasy přečtou některé věty výborně, ale v jiných se objevují odchylky projevující se v nesprávné intonaci řeči.
Následující tabulka ukazuje, kolik institucí se vývojem českých počítačových hlasů zabývá. Tučně jsou označeny hlasy, které mají podporu SAPI a inteligentní hláskování zkratek.

 

 

 

 

Syntetizér (nebo firma či místo)

počet

hlas

počet

Wintallker

1

Jakub, Mirek Markéta

3

-

1

Hlas Blanka

1

Hlasy vyvíjené panem Mojžíškem

1

Iva, Honza, Mojza, Nový hlas Mojza

4

SpeechTech (výzkum na ZČU)

1

Alena, Tomáš

2

SpeechTech - nový (výzkum na ZČU)

1

Alena, Jan

2

Syntéza do Pocketreaderu

1

Pavel, Petra

2

-

1

Voice_czech_ph.

1

Pro systém Simbian

1

Sabrine

1

Epos

1

Kubec, Machac, Theimer, Violka

4

Demosthénes (Masarykova univerzita)

1

Demosthénes

1

Syntéze z liberecké univerzity

1

Hlas Baldi

1

Syntéza od GB-soft

1

Hlasy od GB-soft

2

Syntéza z Německa

1

Hlasy Julia a Lara

2

Syntéze od Nuance

1

Hlas Zuzana

1

Syntéza od Acapely

1

Hlas Eliška

1

Syntetizér Festival

1

Hlas z M-broly (vylepšený)

1

Syntetizér M-Brola

1

Hlasy cz1 a cz2

2

 

 

 

 

 

17

 

31

Nejpoužívanějších české počítačové hlasy

K tomu, abychom mohli o nějakém syntetizéru prohlásit, že je pro zrakově postižené použitelný, musí mít následující vlastnosti:
a) Podporu SAPI
b) Dostatečnou rychlost odezvy
c) Algoritmy, které upravují hláskování zkratek
Všechny tyto tři parametry jsem popsal již výše. V následující části textu uvedu, které hlasy tyto parametry splňují.

WinTalker Voice

Jedná se o jeden s nejrozšířenějších produktů. Obsahuje hlasy Jakub, Markéta a Mirek. Je dodáván firmou Rosasoft. Má v sobě implementovanou podporu SAPI4, a proto je jej možné propojit s odečítacím programem, do něhož je podpora SAPI4 také zabudovaná. Má rychlou odezvu a také dobré algoritmy, které dokážou rozpoznat a vyhláskovat téměř všechny zkratky.
Syntetizéru WinTalker Voice je vytýkána jeho monotónnost, kvůli které tento produkt někteří zrakově postižení nepoužívají. Tento software ale nemá žádné propady kvality, má rychlou odezvu a při jeho poslouchání nebyly zaznamenány žádné odchylky v prozodii.

Související odkazy:
1. Stránky firmy Rosasoft, která nabízí software WinTallker Voice
http://www.rosasoft.cz/

Zuzana

Jedná se o hlas firmy Nuans, který je zdarma dodáván ke zvětšovači a odečítači Supernova. Její propojení s jinými aplikacemi je možné, ale je problematické. Do tohoto hlasu není implementována klasickým způsobem podpora rozhraní SAPI. Její algoritmy rozpoznávající slova, která by se měla vyhláskovat, jsou na dobré úrovni. Někdy však vyhláskuje to, co hláskovat nemá.
Tento hlas je vytvořen technologií unit selection, a proto se v něm objevují výchylky v prozodii. I přesto jej mnozí zrakově postižení velmi rádi používají. Jeho doba odezvy je navíc na rychlých počítačích dostačující.

Související odkazy:
1. Stránky firmy Nuans, která vyvíjí a prodává počítačový hlas Zuzana
http://www.nuance.com/realspeak/languages/

2. Stránky firmy Nuans popisující produkt Zuzana
http://poslepu.blogspot.com/2008/09/zuzana-novy-esky-hlas.html

Eliška

Jedná se o český počítačový hlas od firmy Acapela. Shoda s hlasem v Tom Tom navigaci je náhodná. Eliška je dodávána německou firmou NovoTech. Lze ji však získat zdarma od firmy Spektra se zvětšovačem a odečítačem ZoomText. Jako první český hlas umí do určité míry simulovat v řeči emoce. Má podporu SAPI4 a SAPI5, takže ji je možné bez problému propojit s jakýmkoli odečítačem či softwarem, který v sobě má podporu SAPI4 či SAPI5 zabudovanou. Eliška dokáže rozpoznat slova, která by se měla vyhláskovat. Tyto algoritmy jsou naprogramované na poměrně dobré úrovni, někdy se však stane, že tento hlas vyhláskuje to, co nemá.
U Elišky se také objevují propady v kvalitě, které se projevují odchylkami v prozodii. Jsou však méně časté než u Zuzany. Tento hlas hodnotí mnozí zrakově postižení jako nejlepší českou syntézu.

Související odkazy:
1. Adresa firmy NovoTech dodávající hlas Eliška v ČR
http://www.novotech-gmbh.de/impressum.htm

2. Stránky firmy Acapela s webovou demoverzí hlasu Eliška
http://www.acapela-group.com/text-to-speech-interactive-demo.html

3. Článek časopisu Poslepu popisující hlas Eliška
http://poslepu.blogspot.com/2009/01/eliska-dalsi-kvalitni-cesky-hlas.html

Eris (SpeechTech)

Jedná se o software vyvíjený Západočeskou univerzitou. Obsahuje český ženský hlas Alena, ženský slovenský hlas Beáta a mužský český hlas Tomáš. Má rozhraní SAPI4, takže je jej možné propojit s různými odečítači či jiným software s podporou SAPI4. Hlasy SpeechTechu v sobě nemají implementovány žádné algoritmy, které by umožňovaly rozpoznat a vyhláskovat slova, která by se hláskovat měla.
Hlasy tohoto syntetizéru vynikají srozumitelností jednotlivých hlásek. Je jim však vytýkána monotónnost. I přesto si myslím, že hlas Tomáš je nejkvalitnější český mužský počítačový hlas. Na nových počítačích má tento syntetizér dostačující dobu odezvy.

Související odkazy:
1. Stránky firmy SpeechTech zabývající se výzkumem a prodejem syntezátoru Eris
http://www.speechtech.cz/

2. On-line demo hlasů Alena a Tomáš
http://www.speechtech.cz/demo.php

Hlas

Jedná se o produkt, který je dodávaný firmou Galop. Je jej možné propojit s jakýmkoli odečítačem obrazovky či jiným softwarem přes rozhraní SAPI4, pokud má odečítač či jiný software v sobě podporu SAPI4 implementovanou. Hlas dokáže rozpoznat a vyhláskovat slova a zkratky, která by se vyhláskovat měla.
Tento hlas je monotónní. Má však rychlou odezvu a také při jeho poslouchání nebyly zaznamenány odchylky v prozodii.

Související odkazy:
1. Stránky firmy Galop, která dodává program Hlas
http://www.galop.cz/katalog_detail.php?produkt=24

2. Stránky firmy Galop popisující multi-licence a slevy pro školy
http://www.galop.cz/katalog_detail.php?produkt=61

SpektraVox

Jedná se o produkt, který je zdarma dostupný na stránkách firmy Spektra. Přes rozhraní SAPI4 je jej možné propojit s jakýmkoli odečítačem či softwarem, do něhož je podpora SAPI4 implementována. Obsahuje mužský hlas Rudolf a ženský hlas Majda. Je jej možné instalovat na libovolné množství počítačů a spolu s NVDA zajistit jejich přístupnost pro zrakově postižené studenty a studenty s dyslexií. Syntetizér SpektraVox má poměrně dobré algoritmy, které umožňují rozpoznat, která slova by měla být hláskována.

Související odkazy:
1. Stránky firmy Spektra zabývající se vývojem syntezátoru SpektraVox
http://www.spektravox.cz/cz/zrak/ke-stazeni.php

eSpeak

Jedná se o volně šiřitelný český počítačový hlas. Je standardně dodáván v instalaci volně šiřitelného odečítače NVDA. Přes SAPI5 je jej možné propojit s odečítačem, který má také implementované toto rozhraní. Není jej možné napojit na software pracující s rozhraním SAPI4. Má rychlou dobu odezvy a také dobré algoritmy, které rozpoznávají, jaká slova či jaké zkratky by měly být hláskovány.

Související odkazy:
1. Stránky popisující produkt eSpeak
http://espeak.sourceforge.net/

5. Epos
Epos je zdarma dostupný software, který obsahuje několik hlasů. Nejkvalitnější jsou mužský hlas Machač a ženský hlas Violka. Epos má v sobě implementovanou podporu SAPI5, ale zatím se mi nepodařilo zjistit, zda je její implementace správně dokončena. Proto nevím, zda je možné jej propojit se softwarem, ve kterém je podpora SAPI5 zabudovaná. Epos bohužel v sobě nemá implementovány algoritmy, které by umožnily rozpoznat, jaká slova či jaké zkratky by měly být hláskovány. I jeho doba odezvy je velmi pomalá, zatím nedokáže paralelně syntetizovat text a zároveň jej číst. Je to podle mého názoru velká škoda, neboť se jedná o nejkvalitnější zdarma dostupnou českou syntézu.

Související odkazy:
1. Stránky Akademie věd, na kterých je popsán a na kterých je ke stažení syntetizér Epos
ahttp://epos.ure.cas.cz/

Budoucí vývoj


O problematiku počítačových hlasů se zajímám již velmi dlouhou dobu, neboť jsem od narození těžce zrakově postižený. Z předchozích kapitol je patrné, že se vývojem počítačových hlasů zabývá velké množství různých týmů. Především z tabulky, kterou jsem zde uvedl, je patrné, že je českých počítačových hlasů velké množství. Celá řada produktů je však nedokončena a žádný z produktů nemá srovnatelnou kvalitu se zahraničními syntézami. Proto bych si přál, aby se jednotlivé týmy vyvíjející počítačové hlasy sjednotily do většího týmu, který by vytvořil mimořádně kvalitní počítačový hlas.
Pokusím se své tvrzení dokázat. V současné době existují dva hlavní subjekty, které vyvíjejí volně šiřitelné počítačové hlasy. Jedná se o ČVUT, kde je vyvíjen syntetizér Epos a společnost GB-soft, kde byl vytvořen hlas Petra. Epos má poměrně kvalitní počítačové hlasy, které ale nemají rychlou odezvu a nemají dokončené inteligentní hláskování zkratek. Počítačový hlas, který je vyvíjen GB-softem, má podporu SAPI a rychlou odezvu. Hlas Petra je ale velice nekvalitní. Oba tyto subjekty mají stejný záměr, chtějí vytvořit zdarma dostupný počítačový hlas. Představme si situaci, kdyby se GB-soft a ČVUT spojily. Tým vyvíjející syntetizér Epos by se především soustředil na odstranění některých malých výchylek v prozodii, které počítačové hlasy tohoto syntetizéru mají. Vědci na ČVUT by také mohli Epos upravit tak, aby měl rychlou odezvu díky tomu, že by "paralelně" syntetizoval text a zároveň jej předčítal. GB-soft by vytvořil kvalitní algoritmy, které by rozhodovaly, zda by měla být jednotlivá slova v počítači hláskována či nikoli. Tento příklad dokazuje, že díky spojení těchto dvou subjektů by vznikla kvalitní, volně šiřitelná a použitelná syntéza, kterou by mohli používat zrakově postižení a také dyslektici.
Já sám bych si nejvíce přál, aby se sjednotily týmy, které se zabývají vývojem počítačových hlasů pracujících s technologií unit selection. Bylo by pak možné vytvořit velký tým, který by se dlouhodobě zabýval odstraňováním propadů kvality. Díky tomu by podle mého názoru vznikl vysoce kvalitní počítačový hlas, který by lidem se zrakovým postižením a dyslektikům velice pomohl při jejich integraci do společnosti.

Text připravil Jaromír Tichý

Znám ho a oceňuji jeho zkušenosti a názory.

Jaromír o sobě uvádí:

Jmenuji se Jaromír Tichý. Narodil jsem se 29. října 1986 v Plzni. V roce 1993 jsem začal chodit do Speciální školy pro slabozraké v Plzni. Od roku 1999 jsem nastoupil na Církevní gymnázium v Plzni. Toto gymnázium není speciální škola určená pro zrakově či jinak postižené, ale díky vlídnému přístupu pedagogů zde spolu se zdravými spolužáky studují i studenti s různým typem handicapu. Byl jsem prvním studentem s těžkým zrakovým postižením, který na této střední škole v roce 2007 složil maturitu.
V roce 2010 jsem na Západočeské univerzitě dokončil bakalářské studium oboru Sociální péče. V současné době na této univerzitě studuji magisterský program Sociální práce a Sociální politika, neboť bych chtěl ve svém životě pomáhat handicapovaným lidem rozvojem programů integrace zrakově, sluchově a pohybově postižených do základních, středních a vysokých škol. V současné době spolupracuji na meziuniverzitním projektu Organon, který pracuje na vývoji softwaru zpřístupňujícím logiku zrakově postiženým. Pracuji také v Informačním a poradenském centru při ZČU, kde se podílím na poradenství v oblasti integrace handicapovaných na vysoké škole.

V Plzni dne 8. září 2010