OpenAI Sprachassistent

13. Mai 2024 • 5 Minuten Lesezeit

Und die angebliche Integration in Apples iOS 18

OpenAI erweitert sein Portfolio mit neuen Produkten, und eines der meistdiskutierten ist ihre Voice Assistant-Technologie. Sie soll die Art und Weise revolutionieren, wie wir mit Maschinen über Sprache interagieren, doch vieles über ihre breite Einführung bleibt noch geheim.

Angeblich entwickelt OpenAI eine Technologie, die Audio-, Text- und Bilderkennung in einem einzigen Produkt integriert. Diese Technologie könnte beispielsweise Kindern bei ihren Mathematikhausaufgaben helfen oder Nutzern praktische Informationen über ihre unmittelbare Umgebung bieten, wie Sprachübersetzung oder Anleitungen zur Fahrzeugreparatur.

Was ist der Voice Assistant von OpenAI?

Der angebliche Voice Assistant ist darauf ausgelegt, natürlich mit Nutzern über Sprache zu interagieren. Er nutzt Fortschritte in der automatischen Spracherkennung (ASR), großen Sprachmodellen (LLMs) und Text to Speech (TTS)-Systemen. Die Integration dieser Technologien ermöglicht es dem Voice Assistant, gesprochene Eingaben zu verstehen, die Informationen kontextuell zu verarbeiten und in einer natürlichen, menschenähnlichen Stimme zu antworten.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Fast alle Voice-KI-Systeme folgen drei Schritten:

Spracherkennung ("ASR"): Dies wandelt gesprochene Audiodaten in Text um. Ein Beispiel für eine Technologie ist Whisper.
Sprachmodellverarbeitung: Hier bestimmt ein Sprachmodell die passende Antwort und wandelt den ursprünglichen Text in einen Antworttext um.
Sprachsynthese ("TTS"): Dieser Schritt wandelt den Antworttext zurück in gesprochene Audiodaten um, mit Technologien wie ElevenLabs oder VALL-E als Beispiele.

Die strikte Einhaltung dieser drei Phasen kann zu erheblichen Verzögerungen führen. Wenn Nutzer fünf Sekunden auf jede Antwort warten müssen, wird die Interaktion umständlich und unnatürlich, was das Benutzererlebnis beeinträchtigt, selbst wenn das Audio realistisch klingt.

Effektiver natürlicher Dialog funktioniert nicht sequentiell:

Wir denken, hören und sprechen gleichzeitig.
Wir fügen natürlich Bestätigungen wie "ja" oder "hmm" ein.
Wir antizipieren, wann jemand aufhört zu sprechen, und antworten sofort.
Wir können jemanden auf nicht beleidigende Weise unterbrechen oder überreden.
Wir gehen reibungslos mit Unterbrechungen um.
Wir können mühelos an Gesprächen mit mehreren Personen teilnehmen.

Die Verbesserung des Echtzeitdialogs erfordert nicht nur eine Beschleunigung jedes neuronalen Netzwerkprozesses; es erfordert eine grundlegende Neugestaltung des gesamten Systems. Wir müssen die Überlappung dieser Komponenten maximieren und lernen, in Echtzeit effektiv Anpassungen vorzunehmen.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Anwendungen und potenzielle Integration mit Apples iOS

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

Die potenziellen Anwendungen dieser Technologie sind vielfältig, von persönlichen und geschäftlichen Anwendungen bis hin zur Unterstützung von Gesundheitshelfern in der Gemeinde, die bessere Dienste durch Interaktion in lokalen Sprachen bieten, oder zur Unterstützung von Personen mit Sprachbeeinträchtigungen.

Gerüchten zufolge könnte diese Technologie in Systeme wie Apples iOS integriert werden und ein nahtloseres und interaktiveres Benutzererlebnis als Siri bieten. Allerdings wurden Details zu solchen Kooperationen oder den vollständigen Fähigkeiten des Voice Assistant nicht offiziell bestätigt.

ElevenLabs Voice KI

Eines ist sicher: In jedem fortschrittlichen Sprachassistenten wird hochmoderne Voice-KI eine Rolle spielen. ElevenLabs-Modelle kombinieren proprietäre Methoden für Kontextbewusstsein und hohe Kompression, um ultra-realistische, lebensechte Sprache über eine Vielzahl von Emotionen und Sprachen hinweg zu liefern. Unser kontextuelles Text-to-Speech-Modell ist darauf ausgelegt, Wortbeziehungen zu verstehen und die Wiedergabe basierend auf dem Kontext anzupassen. Es hat auch keine fest codierten Merkmale, was bedeutet, dass es dynamisch Tausende von Stimmmerkmalen vorhersagen kann, während es Sprache generiert. Unsere Modelle sind für bestimmte Anwendungen optimiert, wie z.B. die Erzeugung von Langform- und mehrsprachiger Sprache oder latenzempfindliche Aufgaben.

Melden Sie sich an, um Zugriff auf ein professionelles KI-Audiotoolkit zu erhalten und beginnen Sie jetzt mit der Erstellung von Inhalten oder dem Aufbau von Anwendungen!