Jaká je budoucnost podcastů s klonováním hlasů pomocí AI?

#TYDEN k poslouchání

0:00

-2:49

Jaká je budoucnost podcastů s klonováním hlasů pomocí AI?

Rychlofky

May 24, 2024

Transcript

Posloucháte #tyden. Čtvrteční podcast, takže se nenechte mýlit tím, že je pátek. Mimořádné vydání, poslouchatelné na Substacku i na obvyklých podcastových platformách. Nic nestojí, ale nedělní velký #tyden má hutnou placenou podobu. Potěšíte, pokud se stanete předplatiteli. Ale teď už pojďme na mluvené slovo.

Kolikátý TYDEN to je, už ani nevím. Po delší přestávce už vůbec ne, ale zato vím, že tohle je jeden velký experiment. Může za něj umělá inteligence, protože se mimo obrázků a textů naučila i hodně zajímavé triky s klonováním hlasů.

Posloucháte nový díl podcastu, který jsem nenamluvil já osobně. Napsal jsem ho, poté vložil do ElevenLabs. Kde jsem ale vlastně ještě předtím nahrál 300 sekund záznamu mého hlasu z jednoho z dřívějších podcastů. AI vytvořil během sekund klon mého hlasu, takže tohle co posloucháte, nejsem já. Je to můj digitální dabér.

Jaká je budoucnost podcastů?

Trochu mě to nutí k přemýšlení na tím, jaká je vlastně budoucnost podcastů. Ale také dabingu a řady dalších věcí. Dokážu si představit, že kompletní názvy stanic metra, tramvají a autobusů prostě namluví AI na základě vzorku hlasu skutečného člověka. A nejenom že je namluví, ale v brzké době bude přímo generovat podle potřeby, nikoliv jako nahrávky do databáze.

Dovedu si ale také představit, že skutečný člověk ani nebude potřeba. ElevenLabs, mimochodem placená služba a tohle je výsledek toho nejlevnějšího tieru, má k dispozici desítky syntetických hlasů a je evidentní, že je možné je vytvářet. Časem prostě tak, že si řeknete jak by ten hlas měl znít, mladý, starší. Veselý, smutný. Šílený, optimistický. A dostanete přesně to co chcete.

Prozatím to jenom zkoumám. Možná by se tím dal čtvrteční odcastový týden vytvářet podstatně snáze a rychleji, než namlouváním, hlídáním si nahrávek a poté naopak pořizování přepisu. Stejně tak by se ale vlastně i řada dalších textů, třeba na mém osobním blogu, Old School Střípcích, dali během (doslova) sekund poskytnout v poslouchatelné podobě.

Dá se dělat i to, že podcast člověk namluví aniž by se musel nějak snažit o zásadní kvalitu a čistotu (věřte mi, bez studia je to opravdu složité), poté si ho nechá přepsat do textu, třeba přes Whisper, následně může použít AI,. třeba v ChatGPT, k vylepšení. Může to být rychlejší a efektivnější, než to celé psát. Což se stalo v tomto prvním pokusu.