Eleven bei INTERSPEECH 2022

Die diesjährige Konferenz war die beste Gelegenheit, die wir bisher hatten, um unsere Forschung und deren Ergebnisse zu teilen.

Wie es lief

Wir sind gerade von der diesjährigen INTERSPEECH-Konferenz zurückgekehrt, die die beste Gelegenheit war, die wir bisher hatten, um unsere Entwicklungen der letzten Monate zu präsentieren und Feedback zu erhalten.

Es war großartig, von den Besten der Branche zu lernen und Ideen auszutauschen sowie zukünftige Beziehungen zu knüpfen. Wir trafen Teams von fantastischen Startups, die im gleichen Bereich wie wir arbeiten, insbesondere an Stimmklonung, Sprachsynthese (TTS) und Stimmkonvertierung (VC) (Supertone und LOVO, um nur zwei zu nennen). Ebenso begeistert waren wir, mit etablierten Unternehmen wie Meta und Google über die Hintergrundarbeit bei der Entwicklung von TTS- und VC-Software zu sprechen.

Wir kamen direkt zur Sache. Die aufrichtige Begeisterung für unsere Arbeit hätte uns nicht glücklicher machen können - sie übertraf alle unsere Erwartungen. In den nächsten vier Tagen diskutierten wir unsere Forschung und Fortschritte in den drei oben genannten Sprachtechnologiebereichen - die absolut entscheidenden ersten Schritte auf dem Weg zur Entwicklung unseres proprietären automatischen Synchronisationswerkzeugs, dessen Version 1.0 wir Anfang nächsten Jahres veröffentlichen wollen.

Das Wichtigste für uns war hier, zu beweisen, dass wir Stimmen originalgetreu klonen können - dass wir in der Lage sind, die Stimmähnlichkeit zwischen den Quelldaten, auf denen wir unseren Algorithmus trainieren, und der synthetisch erzeugten Stimme zu bewahren. Zweitens war es entscheidend für uns zu beweisen, dass unsere TTS-Tools auf dem Weg sind, Teil der menschlichsten und natürlich klingenden synthetischen Sprachplattform zu werden, indem sie unvergleichliche Prosodie und Tonalität bieten.

Ersteres ist natürlich wichtig, da wir möchten, dass die neu generierten Äußerungen eindeutig als von einer bestimmten Person gesprochen erkennbar sind - wir müssen die Sprecheridentität korrekt bewahren. Prosodie und Tonalität sind wichtig, weil Ton und Tempo Absicht vermitteln, was Sprache überhaupt erst menschlich klingen lässt. Der heilige Gral hier ist, dass das Programm nicht nur Wörter fließend ausspricht, sondern auch die Äußerung mit einer angemessenen emotionalen Ladung überlagert, sodass es klingt, als ob es versteht,was es sagt.

TTS-Demo

Sie können eine solche TTS-Demo sehen, die wir während der Konferenz verwendet haben. Der erste Link ist das Originalvideo, gefolgt von unserem Beispiel, das dieselbe Nachricht in einer anderen Stimme enthält. Beachten Sie, dass dies Text-to-Speech ist - keine Stimmkonvertierung. Unser einziger Input war, die im Originalvideo gesprochenen Wörter aufzuschreiben, um die gehörte Sprache zu erzeugen. Alle Prosodie und Intonation stammen vom Algorithmus selbst, es gibt keine Nachbearbeitung. Sehen Sie, ob Sie erkennen, wessen Stimme es ist!

Mehr über die Eleven TTS-Technologie lesen Sie in unserem nächsten Beitrag, der sich speziell der Sprachgenerierung aus Texteingaben widmet.

Wenn Ihnen unsere Technologie gefällt und Sie unser Beta-Tester werden möchten, können Sie sich dafür hier klicken.

Original:

Eleven Labs Stimmklonung TTS:

Inhalt vor Form

In den Monaten vor der Konferenz konzentrierten sich unsere Bemühungen fast ausschließlich darauf, nachweisbare Beispiele unserer Technologie zu liefern und unsere proprietäre Forschung zu zeigen. Schließlich ist INTERSPEECH eine Forschungskonferenz, und wir waren entschlossen, dass der Inhalt vor der Form stehen muss, insbesondere bei einer so spezifisch ausgerichteten Veranstaltung. Am Konferenztag begannen wir jedoch zu scherzen, dass unser verstärkter Fokus auf Technologie unsere Branding-Bemühungen vielleicht zu minimalistisch erscheinen ließ. Wir waren bald ziemlich erleichtert, wenn nicht sogar bestätigt, als wir feststellten, dass auch andere, einschließlich der großen Akteure, sich für bescheidenere Set-ups entschieden.

Bis nächstes Jahr

Unsere Korea-Reise war ein großer Erfolg für Eleven und eine große Motivation, noch härter zu arbeiten. Wir sind schon jetzt begeistert, wenn wir an die Fortschritte denken, die wir im nächsten Jahr sowohl in unserer Forschung als auch in der Art und Weise, wie wir sie präsentieren, machen können. Hoffentlich werden wir bis dahin unsere Produktionsqualität-Dubbing-Tools bereit haben und die Stimmen der Menschen nutzen, um sie die Sprachen sprechen zu lassen, die sie nicht beherrschen.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden