Eleven bei INTERSPEECH 2022

Zuletzt aktualisiert 23. Okt. 2025 • 5 Minuten Lesezeit

Die diesjährige Konferenz war die beste Gelegenheit, die wir bisher hatten, um unsere Forschung und deren Ergebnisse zu teilen

Wie es lief

Wir sind gerade von der diesjährigen INTERSPEECH-Konferenz zurückgekehrt, die die beste Gelegenheit war, die wir bisher hatten, um unsere Entwicklungen der letzten Monate zu präsentieren und Feedback zu erhalten.

Es war großartig, von den Besten der Branche zu lernen und Ideen auszutauschen sowie zukünftige Beziehungen zu knüpfen. Wir trafen Teams von fantastischen Startups, die im gleichen Bereich wie wir arbeiten, insbesondere im Bereich Voice Cloning, Sprachsynthese (TTS) und Voice Conversion (VC) (Supertone und LOVO, um nur zwei zu nennen). Ebenso begeistert waren wir, mit etablierten Unternehmen wie Meta und Google über die Entwicklung von TTS- und VC-Software zu sprechen.

Wir haben uns direkt an die Arbeit gemacht. Die aufrichtige Begeisterung für unsere Arbeit hätte uns nicht glücklicher machen können - sie übertraf alle unsere Erwartungen. In den nächsten vier Tagen diskutierten wir unsere Forschung und Fortschritte in den drei oben genannten Bereichen der Sprachtechnologie - die absolut entscheidenden ersten Schritte auf dem Weg zur Entwicklung unseres proprietären automatischen Synchronisationstools, dessen Version 1.0 wir Anfang nächsten Jahres veröffentlichen wollen.

Das Wichtigste für uns war hier, zu beweisen, dass wir Stimmen originalgetreu klonen können - dass wir in der Lage sind, die Stimmähnlichkeit zwischen den Ausgangsdaten, auf denen wir unseren Algorithmus trainieren, und der synthetisch erzeugten Stimme zu bewahren. Zweitens war es entscheidend, zu beweisen, dass unsere TTS-Tools auf dem Weg sind, Teil der menschlichsten und natürlich klingenden synthetischen Sprachplattform zu werden, indem sie unvergleichliche Prosodie und Tonalität bieten.

Ersteres ist natürlich wichtig, da die neu generierten Äußerungen eindeutig als von einer bestimmten Person gesprochen erkennbar sein müssen - wir müssen die Sprecheridentität korrekt bewahren. Prosodie und Tonalität sind wichtig, weil Ton und Tempo die Absicht vermitteln, was die Sprache überhaupt erst menschlich klingen lässt. Das Ziel ist, dass das Programm nicht nur Wörter fließend ausspricht, sondern auch die Äußerung mit einer angemessenen emotionalen Ladung versieht, sodass es klingt, als ob es versteht,was es sagt.

TTS-Demo

Sie können unten eine solche TTS-Demo sehen, die wir während der Konferenz verwendet haben. Der erste Link ist das Originalvideo, gefolgt von unserem Beispiel, das dieselbe Nachricht in einer anderen Stimme enthält. Beachten Sie, dass dies Text-to-Speech ist - keine Voice Conversion. Unser einziger Input war, die im Originalvideo gesprochenen Wörter aufzuschreiben, um die gehörte Sprache zu erzeugen. Alle Prosodie und Intonation stammen vom Algorithmus selbst, es gibt keine Nachbearbeitung. Sehen Sie, ob Sie erkennen, wessen Stimme es ist!

Mehr über die Eleven TTS-Technologie lesen Sie in unserem nächsten Beitrag, der sich speziell der Sprachgenerierung aus Texteingaben widmet.

Wenn Ihnen unsere Technologie gefällt und Sie unser Beta-Tester werden möchten, können Sie sich hier anmelden.

Original:

Eleven Labs Voice Cloning TTS:

Inhalt vor Form

In den Monaten vor der Konferenz konzentrierten sich unsere Bemühungen fast ausschließlich darauf, nachweisbare Beispiele unserer Technologie zu liefern und unsere proprietäre Forschung zu zeigen. Schließlich ist INTERSPEECH eine Forschungskonferenz und wir waren entschlossen, dass der Inhalt vor der Form stehen muss, insbesondere bei einer so spezifisch ausgerichteten Veranstaltung. Am Konferenztag begannen wir jedoch zu scherzen, dass unser verstärkter Fokus auf Technologie unsere Branding-Bemühungen vielleicht zu minimalistisch erscheinen ließ. Wir waren bald erleichtert, wenn nicht sogar bestätigt, als wir feststellten, dass auch andere, einschließlich der großen Akteure, bescheidenere Set-ups wählten.

Bis nächstes Jahr

Unsere Korea-Reise war ein großer Erfolg für Eleven und eine große Motivation, noch härter zu arbeiten. Wir sind schon jetzt begeistert, wenn wir an die Fortschritte denken, die wir im nächsten Jahr sowohl in unserer Forschung als auch in der Art und Weise, wie wir sie präsentieren, machen können. Hoffentlich werden wir bis dahin unsere produktionsreifen Synchronisationstools bereit haben und die Stimmen der Menschen nutzen, um sie die Sprachen sprechen zu lassen, die sie nicht beherrschen.