.webp&w=3840&q=95)
Top 5 Speechify alternatives for reading text aloud
Explore the best alternatives to Speechify.
Mit der Stimmkonvertierung können Sie die Stimme einer Person in die einer anderen Person umwandeln. Dabei kommt ein Prozess namens „Stimmklonen“ zum Einsatz, um die Zielstimme – also die Stimme, in die wir konvertieren – zu kodieren und die gesprochene Nachricht so zu generieren, dass sie mit der Identität des Zielsprechers übereinstimmt, die ursprüngliche Intonation jedoch erhalten bleibt.
Hochwertige Sprachkonvertierungs- und Sprachklonierungstechnologien haben das Potenzial, die Art und Weise der Inhaltserstellung und -bereitstellung sowie der Interaktion mit diesen in zahlreichen Branchen zu revolutionieren. Sie versprechen eine Optimierung der Produktionszeit und -kosten und bieten denjenigen, die ihre Meinung äußern, um Konvertierungsalgorithmen zu trainieren, Möglichkeiten, passive Gebühren zu verdienen.
Obwohl wir bei Eleven als Teil unseres Toolpakets Software zur Stimmkonvertierung entwickeln, treibt unsere Forschung im Bereich Stimmklonen und Stimmsynthese in erster Linie die Entwicklung unseres Hauptprodukts voran, das wir Anfang nächsten Jahres auf den Markt bringen möchten: das identitätserhaltende Tool zur automatischen Synchronisation.
Unser Ziel besteht darin, alle gesprochenen Inhalte auf Knopfdruck in der Stimme des Originalsprechers in allen Sprachen zugänglich zu machen. Stellen Sie sich ein lehrreiches YouTube-Video auf Englisch vor. Wenn jemand nur Spanisch spricht (aber das Thema ansonsten interessant fände, wenn er nur die Sprache beherrschen würde), ist das ein Problem. Natürlich können Untertitel eine Lösung sein, aber unser Ziel besteht darin, eine viel umfassendere und unterhaltsamere Möglichkeit zur Auseinandersetzung mit Inhalten zu bieten. Wir möchten in der Lage sein, dieselbe Person so zu gestalten, dass sie dieselbe Nachricht in muttersprachlichem Spanisch auf natürliche Weise ausspricht, auch wenn dies nicht der Fall ist.
Zu diesem Zweck ermöglicht uns das Klonen von Stimmen, ihre Identität zu bewahren – den Klang ihrer Stimme. Wir nutzen es, um neue Äußerungen in einer anderen Sprache zu generieren, sodass sie sich anhören, als würde dieselbe Person sprechen.
Die Stimmkonvertierung kommt ins Spiel, weil wir ihre Emotionen, Absichten und ihren Vortragsstil für ein maximales Eintauchen bewahren möchten. Wir trainieren robuste mehrsprachige Modelle, die es uns ermöglichen, Äußerungen in der Ausgangssprache zu analysieren und sie mit der richtigen Intonation in die Zielsprache zu übertragen.
Um die Stimme einer Person in die einer anderen Person umzuwandeln, also Ausgangssprache in Zielsprache, benötigen wir einen Algorithmus, der den Inhalt der Ausgangssprache mit den Merkmalen der Zielsprache ausdrückt. Eine gute Analogie hierzu sind Apps zum Gesichtstauschen, mit denen Sie Ihr Gesicht mit dem einer anderen Person mischen können, um ein Bild zu erstellen, auf dem beide Gesichter als Einheit zu sehen sind.
Gehen Sie hierzu so vor, dass Sie ein Bild von einem Gesicht machen und dessen Attribute zuordnen. Die Punkte im folgenden Beispiel tun genau das: Sie stellen die Grenzen dar, innerhalb derer die Merkmale des anderen Gesichts gerendert würden.
Bei der Sprachkonvertierung benötigen wir eine Möglichkeit, mit der der Algorithmus die Zielspracheigenschaften kodieren kann. Der Algorithmus wird anhand eines Datensatzes trainiert, der viele Beispiele dieser Rede enthält. Es zerlegt diese Samples auf eine grundlegende Ebene – sozusagen in die „Atome“ der Sprache. Sprache besteht aus Sätzen. Sätze bestehen aus Wörtern. Wörter bestehen aus Phonemen und kennzeichnen die Merkmale der Zielsprache. Sie stellen die grundlegende Ebene dar, auf der der Algorithmus arbeitet.
Der Trick bei der Sprachkonvertierung besteht darin, den Inhalt der Quellsprache mithilfe von Zielsprachphonemen wiederzugeben. Allerdings gibt es hier einen Kompromiss, ähnlich wie im Beispiel mit dem Gesichtsaustausch: Je mehr Markierungen Sie zum Zuordnen der Attribute eines Gesichts verwenden, desto mehr Beschränkungen legen Sie für das Gesicht fest, das Sie innerhalb dieser Markierungen zuordnen. Weniger Markierungen bedeuten weniger Einschränkungen. Dasselbe gilt für die Sprachkonvertierung. Je mehr Vorrang wir der Zielsprache einräumen, desto größer ist das Risiko, dass wir nicht mehr mit der Ausgangssprache synchron sind. Wenn wir ihm jedoch nicht genügend Priorität einräumen, besteht die Gefahr, dass viel von dem verloren geht, was diese Sprache charakteristisch macht. Wenn wir beispielsweise die Aufnahme einer wütend schreienden Person mit der Stimme von Morgan Freeman wiedergeben würden, hätten wir ein Problem. Wenn wir den Emotionen aus der Originalsprache zu viel Vorrang geben, verlieren wir den Eindruck, dass tatsächlich Morgan Freeman spricht. Wenn wir zu viel Wert auf sein Sprechmuster legen, geht die emotionale Ladung der Originalrede verloren.
Ethische Bedenken im Zusammenhang mit dem Stimmenklonen müssen angesprochen werden, da der potenzielle Missbrauch dieser Technologie immer mehr Menschen beunruhigt. Im Jahr 2020 nutzten Betrüger Audio-Deepfakes, um in einem Telefongespräch die Rolle eines CEOs zu übernehmen und so eine Banküberweisung in Höhe von 35 Millionen US-Dollar zu autorisieren. Eine Technologie, die den Eindruck erwecken kann, jemand habe etwas Falsches gesagt, weckt natürlich die Befürchtung, sie könne zu Desinformations-, Verleumdungs- oder Betrugszwecken missbraucht werden. Ebenso wirft die Sprachkonvertierung wichtige Fragen hinsichtlich Urheberrechtsverletzungen auf, wenn sie es Benutzern ermöglicht, aus Inhalten, die ohne die Zustimmung der Spracheigentümer erstellt wurden, Kapital zu schlagen.
Bei Eleven sind wir der Ansicht, dass wir alles in unserer Macht Stehende tun müssen, um sicherzustellen, dass unsere Technologie nicht für schändliche Zwecke eingesetzt wird. Daher müssen wir Sicherheitsvorkehrungen treffen, um vor den damit verbundenen Gefahren zu schützen:
Wir sind davon überzeugt, dass die Angst vor Missbrauch nicht der dominierende Faktor sein sollte, der unsere Haltung gegenüber leistungsstarken neuen Technologien bestimmt. Vielmehr sollten wir uns darum bemühen, bereits während der Entwicklung geeignete Sicherheitsvorkehrungen zu treffen, um das Schadensrisiko zu minimieren und gleichzeitig das Potenzial, das die Technologie der breiten Öffentlichkeit bietet, optimal zu nutzen.
Die Technologie zur Stimmkonvertierung und Stimmklonierung dürfte die Film- und Fernsehbranche, die Inhaltserstellung, die Spieleentwicklung, die Podcast- und Hörbuchbranche sowie die Werbebranche revolutionieren. Doch ihre Einsatzmöglichkeiten gehen über den kommerziellen Bereich hinaus und umfassen potenzielle Anwendungen in der Medizin, Bildung und Kommunikation.
Das Klonen von Stimmen ebnet den Weg für eine Zukunft, in der beliebige Inhalte in jeder Sprache und mit jeder Stimme generiert werden können, um Millionen von Menschen weltweit zu erreichen und eine völlig neue Wirtschaft zu schaffen. Unser Ziel bei Eleven ist es, dazu beizutragen, diese Zukunft zu verwirklichen.
Explore the best alternatives to Speechify.
Scribe transcription outperforms other tools