Einführung von Eleven v3 Alpha

v3 ausprobieren

ElevenLabs sammelt 2 Mio. USD und kündigt KI-Sprachplattform an, die das Audio-Storytelling revolutionieren soll

Das Unternehmen öffnet den Zugang zur Beta-Plattform, die es Kreativen und Verlagen ermöglicht, Langform-Inhalte zu erzählen

  • ElevenLabs startet Beta-Plattform, die es Kreatoren und Verlegern ermöglicht, ihre Langform-Inhalte zu vertonen
  • Die Pre-Seed-Finanzierungsrunde wurde von Credo Ventures geleitet, mit Beteiligung von Concept Ventures und einzelnen Investoren
  • Kapital wird die Forschung und Entwicklung der KI-Synchronisation vorantreiben, die für eine Veröffentlichung später in diesem Jahr geplant ist


2023-01-23, London, UK |ElevenLabs, ein KI-Sprachtechnologie-Startup, entwickelt lebensechte Sprachsynthese-Tools mit dem langfristigen Ziel, gesprochene Audios sofort zwischen Sprachen zu konvertieren. Heute kündigten sie den Start ihrer Beta-Plattform an, nachdem sie in einer Pre-Seed-Finanzierungsrunde 2 Millionen Dollar gesammelt hatten, die von Credo Ventures geleitet wurde, mit Beteiligung von Concept Ventures und anderen einzelnen Investoren.

Die Plattform des Unternehmens ermöglicht es Kreatoren und Verlegern, Langform-Inhalte zu vertonen und in das Audioformat zu expandieren. Ihre Funktionen basieren auf einem intern entwickelten Deep-Learning-Modell für Sprachsynthese, das menschliche Intonation und Betonungen realistisch wiedergibt und die Wiedergabe basierend auf dem Kontext anpassen kann. ElevenLabs bietet auch eine Reihe von Tools für das Klonen von Stimmen und das Design synthetischer Stimmen, um Nutzern neue kreative Möglichkeiten zu bieten. Das Unternehmen arbeitet derzeit mit ausgewählten Verlegern an einer speziellen Workstation für die Sprachbearbeitung, die Anfang Februar zur Plattform hinzugefügt wird. ElevenLabs strebt an, der erste KI-Erzähler zu werden, der die Qualität bietet, die für die Vertonung von Nachrichten und Hörbüchern im großen Maßstab erforderlich ist.

Fortschritte in der Leistungsfähigkeit erfordern Innovation, weshalb sich ElevenLabs in erster Linie als Forschungsunternehmen betrachtet. Ein Großteil dieser Forschung konzentrierte sich bisher auf die Entwicklung neuer Text-to-Speech-Modelle, die auf hoher Kompression und Kontextverständnis basieren, um menschliche Sprache ultra-realistisch wiederzugeben. Das Unternehmen hat auch ein neues Modell für das Klonen von Stimmen entwickelt, das eine hohe Ähnlichkeit der Ausgabe ohne Training (kein Feintuning) erreicht, bei Proben von nur 5 Sekunden - eine bisher unerhörte Leistung. Entwickler können auf alle diese Funktionen über API zugreifen.

Diese Forschung treibt die aktuellen Funktionen der Plattform an, trägt aber auch dazu bei, das ultimative Ziel des Unternehmens zu verwirklichen, gesprochene Audios sofort zwischen Sprachen zu konvertieren. Ihr KI-Synchronisationstool, das für eine Veröffentlichung später in diesem Jahr geplant ist, wird es Nutzern ermöglichen, jedes Audio oder Video automatisch in einer anderen Sprache neu zu vertonen, während die Stimme des ursprünglichen Sprechers erhalten bleibt. ElevenLabs hofft zunächst, Kunden im Bildungsbereich zu gewinnen, während das langfristige Ziel darin besteht, bedarfsgerechte mehrsprachige Audio-Unterstützung in den Bereichen Streaming, Hörbücher, Gaming, Filme und sogar Echtzeitgespräche zu realisieren.

Die Sprachsynthese- und Synchronisationstools des Unternehmens sind ebenso komplementär wie gut getimed: Beide versprechen, Audio und Video einem breiteren Publikum zugänglich zu machen, und beide kommen zu einer Zeit, in der der Audiobereich boomt. Eine frühe Gruppe von Testern, darunter YouTube-Kreatoren, Verleger und Entwickler, nutzt die Plattform bereits täglich, um Videos, Geschichten und Charaktere zu vertonen, und das Unternehmen erwartet, dass sich das Spektrum der potenziellen Anwendungen für generative Sprache nur erweitern wird. Nachrichtenverleger haben bereits festgestellt, dass die Erweiterung ihrer Audio-Präsenz eine großartige Möglichkeit ist, Abonnenten zu binden und zu halten. Aber die Beauftragung von Synchronsprechern ist teuer, ebenso wie das Vorlesen von Geschichten durch Reporter. Buch- und Newsletter-Autoren und sogar Spieleentwickler stehen vor ähnlichen Herausforderungen: Erstere greifen zunehmend darauf zurück, ihre eigenen Werke zu vertonen, und Letztere müssen entscheiden, ob ein bestimmter Charakter die Aufnahmekosten rechtfertigt. Diejenigen, die bestehende Text-to-Speech-Software verwenden, sparen Geld, zahlen jedoch einen anderen Preis, indem sie bei der Qualität Kompromisse eingehen. ElevenLabs besteht darauf, dass es nicht mehr notwendig ist, Kompromisse einzugehen, da sie sich darauf vorbereiten, Kreatoren und Verleger mit den fortschrittlichsten und vielseitigsten KI-Erzählwerkzeugen auszustatten.

„Die Plattform, die wir jetzt starten, dreht sich darum, Text in hochwertiges gesprochenes Audio zu verwandeln. Wir möchten den Menschen ermöglichen, ihr Lieblingsbuch oder ihren Newsletter zu genießen, indem wir allen Autoren, Kreatoren und Entwicklern, die sich keine Stimme leisten konnten, eine Stimme geben“ - sagt Mati Staniszewski, ein Mitbegründer. „Unser ultimatives Ziel ist es, den Menschen zu ermöglichen, jeden Inhalt zu genießen, den sie relevant und interessant finden, unabhängig davon, welche Sprache sie sprechen“ - fügt Piotr Dabkowski hinzu, ebenfalls Mitbegründer.

Bei Credo Ventures suchen wir nach klugen und ehrgeizigen Gründern aus der CEE-Region. Wir sahen den Hunger und das Funkeln in Matis und Piotrs Augen bei unserem allerersten Treffen. Ein paar Monate später werden sie zu einem Forschungszentrum für Sprachtechnologie auf OpenAI-Niveau, das die größten Herausforderungen im Bereich künstlicher Audioinhalte überwindet. Ihre synthetisierten Stimmen sind bereits nicht mehr von echten zu unterscheiden, und dieser Durchbruch hat nicht nur die Barrieren für die Erstellung von Inhalten in beispielloser Qualität und Treue massiv gesenkt, sondern wird es Kreatoren bald auch ermöglichen, ihr Publikum radikal zu erweitern, indem sie mehrsprachig werden.– sagt Maciek Gnutek, General Partner bei Credo Ventures.

Obwohl Audio sowohl im Unterhaltungs- als auch im Geschäftsbereich allgegenwärtig ist, wurde es von den jüngsten Fortschritten in der Forschung relativ vernachlässigt. Wir könnten nicht aufgeregter sein, Mati & Piotr in dieser goldenen Ära für generative KI zu unterstützen, und glauben, dass ElevenLabs das Team ist, das diese Technologie der breiten Masse zugänglich machen wird, eine Stimme nach der anderen - sagt Oliver Kicks, Principal bei Concept Ventures.

Über ElevenLabs:
ElevenLabs ist ein Forschungsunternehmen, das KI-Sprachsynthese-Software für Kreatoren und Verleger entwickelt. Die Tools des Unternehmens erzeugen bemerkenswert lebensechte Sprache und können Intonation und Betonungen entweder basierend auf dem Kontext oder den Anweisungen des Nutzers anpassen. Die Plattform des Unternehmens strebt an, die notwendige Qualität und Vielseitigkeit zu bieten, um eine All-in-One-Lösung für die Vertonung von Nachrichten, Newslettern, Büchern und Videos zu werden. Zu den wichtigsten Funktionen gehören: textbasierte Sprachgenerierung, Stimmenklonen, Stimmendesign und bald auch Projekt-Workflow für die Bearbeitung von Erzählungen. ElevenLabs wurde 2022 von Piotr, einem ehemaligen Google-Maschinenlern-Ingenieur, und Mati, einem ehemaligen Palantir-Deployment-Strategen, gegründet. Das langfristige Ziel des Unternehmens ist es, gesprochenen Inhalt in jeder Sprache und Stimme universell zugänglich zu machen.

Risikokapital bereitgestellt von Credo Ventures und Concept Ventures. Zu den einzelnen Investoren gehören Peter Czaban, Tytus Cytowski, Talfan Evans, Dr. Fatima Godall, Tomasz Karwatka, Piotr Karwatka, Akhil Paul, Bartek Pucek, Marta Pyrzyk, Carles Reina, Parin Shah, Charlie Songhurst und Harry Songhurst.

Kontakt
press@elevenlabs.io

Mehr entdecken

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden