Sprachsynthesemodell von Amazon

https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data

https://www.amazon.science/base-tts-samples

Das sind schon sehr bemerkenswerte Resultate. Ich möchte behaupten, dass die Technik noch nicht an professionelle Sprecher*innen herankommt. Aber wie bei anderen generativen Machine-Learning-Modellen, ist es wohl nur noch eine Frage der Zeit, bis mit solchen Techniken tatsächlich auch Profis ersetzt werden.


Du kannst entweder direkt hier auf der Seite kommentieren oder über eine ActivityPub-fähige Plattform wie Mastodon an der (vermutlich außerordentlich regen) Diskussion teilnehmen. Kopiere dazu die Adresse dieses Beitrags in die Suche deiner Instanz. Ja, das ist momentan noch ein bisschen komplizierter als es sein müsste, aber kommt Zeit, kommt Rat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert