Počítačová syntéza řeči, systémy TTS
Systémy TTS
 Tisk

Počítačová syntéza řeči, systémy TTS (Text-To-Speech) jsou systémy, u kterých je vstupem text, výstupem řeč.

Umožňují automatické čtení textů pomocí tzv. odečítačů obrazovek; ty jsou schopny číst texty v různých aplikacích (Word, Excel atd.) i texty na webových stránkách. Systémy jsou v současnosti velmi propracované, přesto se stále zdokonalují s cílem generovat řeč z libovolného textu, vytvářet řeč, která není rozpoznatelná od řeči člověka.

Systémy TTS nachází využití i v systémech automatického překladu či v systémech ozvučování multimediálních systémů - videí, animací apod. Mohou být doplněny o výstupy jako např. braillský řádek, který pak slouží nevidomým uživatelům.

V systémech počítačové syntézy řeči (TTS) lze rozlišit dva základní moduly. Modul pro zpracování textu a syntetizér řeči, jak je vidět na následujícím obrázku.

Zpracování přirozeného jazyka se označuje zkratkou NLP (Natural Language Processing).

Nejprve je nutno analyzovat text - provést tzv. „normalizaci textu“ tj. převod do slovní podoby. Následuje fonetická transkripce - převod do výslovnostní podoby. Přepis se provádí pomocí fonologických pravidel.

Následují ukázky klasických fonologických pravidel v českém jazyce: q => kv, ě => je; následovaných spodobou znělosti: dub => dup; sjezd => sjest

NLP generuje ještě prozodické charakteristiky.

Následně syntetizér (syntetizátor či syntezátor) zpracovává fonetické informace a prozodické informace (informace o rychlosti, melodii, hlasitosti promluvy a informaci o intonaci a rytmickém průběh) a vytvoří se věta oznamovací, tázací či rozkazovací apod.

Syntetizéry jsou důležitými prvky v odečítačích obrazovek, kterými se budeme zabývat v následujících studijních článcích.

V souvislosti se syntetizéry se setkáte s pojmy SAPI 4, SAPI 5. Je to Speech Application Programming Interface od Microsoftu - interface mezi aplikací a řečovým systémem, ať už je to TTS systém nebo systém rozpoznávání řeči.

Existuje množství SAPI hlasů. Využívají se též systémy založené na technologii .NET

V následující tabulce jsou uvedeny vybrané současné významné systémy syntézy řeči dodávané s českými hlasy.

TTS

Acapela

http://www.acapela-group.com/
Vznikla sloučení TTS společností Babeltech, Elan a Infovoxa

Systémy pro multimediální aplikace, mobilní terminály, telefony i pro oblast zábavy;
zahrnuta je čeština: jedná se velice kvalitní ženský hlas Eliška;

Linguatec

http://www.linguatec.cz/products/tts/voice_reader
Zde si můžete aplikaci vyzkoušet:
http://www.linguatec.cz/onlineservices/voice_reader/

 

Známá je velmi zajímavá aplikace a užitečná aplikace Voice Reader, které se budeme věnovat později;
existují různé verze; pro profesionální použití slouží Voice Reader Studio v české verzi stojí 10 000 Kč;
zahrnuta je čeština: jedná se o ženský hlas

Na http://www.acapela-group.com/text-to-speech-interactive-demo.html

můžete vyzkoušet kvalitu českého hlasu. Podle našeho názoru, jeden z nejlepších. Neměli jsme však možnost testovat plnou verzi aplikace od firmy Acapela. Ale jednomu našemu studentovi byly hlasy zakoupeny, tak se se zkušenostmi s jejich užívání určitě podělí. Hlasy od uvedené firmy, ale to platí asi obecně, jsou poměrně drahé.

Zobrazí se vám okno, do kterého můžete vepsat vlastní text a přehrát si jej.

Ve druhé tabulce jsou uvedeny další vybrané současné významné systémy syntézy řeči.

Dokument bez názvu

Nuance Communications

http://www.nuance.com

AT&T

http://www.naturalvoices.att.com/

Loquendo


http://tts.loquendo.com/

Cepstral LLC

http://www.cepstral.com/

IBM

http://www.research.ibm.com/tts/

Na

ATT si můžete vyzkoušet kvalitní anglické hlasy.

Náhled stránky:

Jedná se o systém firmy