Počítačová syntéza řeči, systémy TTS (Text-To-Speech) jsou systémy, u kterých je vstupem text, výstupem řeč.
Umožňují automatické čtení textů pomocí tzv. odečítačů obrazovek; ty jsou schopny číst texty v různých aplikacích (Word, Excel atd.) i texty na webových stránkách. Systémy jsou v současnosti velmi propracované, přesto se stále zdokonalují s cílem generovat řeč z libovolného textu, vytvářet řeč, která není rozpoznatelná od řeči člověka.
Systémy TTS nachází využití i v systémech automatického překladu či v systémech ozvučování multimediálních systémů - videí, animací apod. Mohou být doplněny o výstupy jako např. braillský řádek, který pak slouží nevidomým uživatelům.
V systémech počítačové syntézy řeči (TTS) lze rozlišit dva základní moduly. Modul pro zpracování textu a syntetizér řeči, jak je vidět na následujícím obrázku.
Zpracování přirozeného jazyka se označuje zkratkou NLP (Natural Language Processing).
Nejprve je nutno analyzovat text - provést tzv. „normalizaci textu“ tj. převod do slovní podoby. Následuje fonetická transkripce - převod do výslovnostní podoby. Přepis se provádí pomocí fonologických pravidel.
Následují ukázky klasických fonologických pravidel v českém jazyce: q => kv, ě => je; následovaných spodobou znělosti: dub => dup; sjezd => sjest
NLP generuje ještě prozodické charakteristiky.
Následně syntetizér (syntetizátor či syntezátor) zpracovává fonetické informace a prozodické informace (informace o rychlosti, melodii, hlasitosti promluvy a informaci o intonaci a rytmickém průběh) a vytvoří se věta oznamovací, tázací či rozkazovací apod.
Syntetizéry jsou důležitými prvky v odečítačích obrazovek, kterými se budeme zabývat v následujících studijních článcích.
V souvislosti se syntetizéry se setkáte s pojmy SAPI 4, SAPI 5. Je to Speech Application Programming Interface od Microsoftu - interface mezi aplikací a řečovým systémem, ať už je to TTS systém nebo systém rozpoznávání řeči.
Existuje množství SAPI hlasů. Využívají se též systémy založené na technologii .NET
V následující tabulce jsou uvedeny vybrané současné významné systémy syntézy řeči dodávané s českými hlasy.
Acapela |
Systémy pro multimediální aplikace, mobilní terminály, telefony i pro oblast zábavy; |
Linguatec
|
Známá je velmi zajímavá aplikace a užitečná aplikace Voice Reader, které se budeme věnovat později; |
Na http://www.acapela-group.com/text-to-speech-interactive-demo.html
můžete vyzkoušet kvalitu českého hlasu. Podle našeho názoru, jeden z nejlepších. Neměli jsme však možnost testovat plnou verzi aplikace od firmy Acapela. Ale jednomu našemu studentovi byly hlasy zakoupeny, tak se se zkušenostmi s jejich užívání určitě podělí. Hlasy od uvedené firmy, ale to platí asi obecně, jsou poměrně drahé.
Zobrazí se vám okno, do kterého můžete vepsat vlastní text a přehrát si jej.
Nuance Communications |
Loquendo |
Cepstral LLC |
ATT si můžete vyzkoušet kvalitní anglické hlasy.
Náhled stránky:
Jedná se o systém firmy