Tento týden jsme na rádiu Expres FM vyzkoušeli naklonovat jednu z našich moderátorek. Jak probíhá tvorba syntetického hlasu, kolik provoz robotického moderátora (ne)ušetří času, nebo jak jsme se z našeho experimentu poučili, v rozhovoru Stopáže prozrazuje jeden z hlavních strůjců Hacsiko Jiří Špaček.
Co to znamená syntetický hlas?
Syntetický hlas v našem případě znamená, že jsme si nabral hlas Báry Hacsi, která společně s Milošem Pokorným na Expresu moderuje Ranní klub. Její hlas jsme zdigitalizovali a převedli o do takzvaného akustického a jazykového modelu, který pak můžeme použít na to, aby nám řekl cokoliv co chceme.
Vzhledem k tomu, že Bára moderuje Ranní klub, tak máme obrovskou databázi zvuků. To se muselo při výrobě jejího syntetického hlasu docela hodit, ne?
Bohužel ne. Pro to, aby jsi mohl ten hlas vyrobit, potřebuje nějakou konkrétní kvalitu a nesmí ti do něj hrát jingly, podkresy a podobně. Takže Bára musela načíst všechno znovu. A druhá věc je, že text na učení našeho modelu musí být rozčleněný na věty nebo odstavce. Aby robot rozpoznal jednotlivé fonémy. Není to úplně jednoduché a zabere to poměrně dost času.
Plánujeme vyrábět takových hlasů víc?
Stoprocentně. Například na Seznam Zprávách nám budou naše články načítat hlasy redaktorů. Bára byl opravdu experiment v ostrém provozu, a nyní s ní musíme provést ještě spoustu věcí. Vyladit, aby mluvila správně, měla hesitace a tak dál.
Celý rozhovor si můžete poslechnout v přehrávači v úvodu článku. Pokud zrovna nesedíte u počítače, podcast Stopáž najdete i v aplikaci Seznam.cz, na portálu Podcasty.cz a nebo ve všech podcastových přehrávačích.
V podcastu Stopáž kromě toho ještě uslyšíte, jak pokračuje stávka na diskusní platformě Reddit, jak Taliban válčí s WhatsAppem, nebo co zástupci Spotfiy na veřejnosti říkají o hvězdném páru Harry & Meghan. Nechybí samozřemě ani náhodný fakt na konec, tentokrát o skupině Chumbawamba.
Úvodní foto: Expres FM / Seznam.cz