Sprachsynthesemodell von Amazon

https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data

https://www.amazon.science/base-tts-samples

Das sind schon sehr bemerkenswerte Resultate. Ich möchte behaupten, dass die Technik noch nicht an professionelle Sprecher*innen herankommt. Aber wie bei anderen generativen Machine-Learning-Modellen, ist es wohl nur noch eine Frage der Zeit, bis mit solchen Techniken tatsächlich auch Profis ersetzt werden.


Du kannst entweder direkt hier auf der Seite kommentieren oder über eine ActivityPub-fähige Plattform wie Mastodon an der (vermutlich außerordentlich regen) Diskussion teilnehmen. Kopiere dazu die Adresse dieses Beitrags in die Suche deiner Instanz. Ja, das ist momentan noch ein bisschen komplizierter als es sein müsste, aber kommt Zeit, kommt Rat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Wenn du mit einem Beitrag auf deiner eigenen Website auf diesen Post reagiert und ihn verlinkt hast, kannst du den Link zu deinem Beitrag in das Feld unten kopieren. Er wird dann als Kommentar angezeigt. Gegebenenfalls muss dieser Kommentar zuerst noch moderiert werden, wunder dich also nicht, wenn er nicht direkt angezeigt wird. Wenn du den Beitrag auf deiner Seite veränderst oder löschst, kannst du den Link einfach nochmal eintragen, dann sollte der Kommentar eigentlich aktualisiert werden. (Das Ganze funktioniert über Webmentions.)