OpenAI Röstassistent

13 maj 2024 • 5 minuter lästid

Och dess ryktade integration i Apples iOS 18

OpenAI har utökat sin portfölj med nya produkter, och en av de mest omtalade är deras Voice Assistant-teknologi. Den är redo att revolutionera hur vi interagerar med maskiner via röst, men mycket om dess breda användning är fortfarande hemligt.

Påstås det att OpenAI utvecklar en teknologi som integrerar ljud-, text- och bildigenkänning i en enda produkt. Denna teknologi skulle till exempel kunna hjälpa barn med deras matematikläxor eller ge användare praktisk information om deras omedelbara omgivning, som språköversättning eller vägledning för fordonsreparation.

Vad är OpenAIs Voice Assistant?

Den ryktade Voice Assistant är designad för att naturligt interagera med användare genom tal. Den utnyttjar framsteg inom Automatic Speech Recognition (ASR), Large Language Models (LLMs), och Text to Speech (TTS)-system. Integrationen av dessa teknologier gör att Voice Assistant kan förstå talad input, bearbeta informationen kontextuellt och svara med en naturlig, mänsklig röst.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Nästan alla röst-AI-system följer tre steg:

Taligenkänning ("ASR"): Detta omvandlar talat ljud till text. En exempel på teknologi är Whisper.
Språkmodellbearbetning: Här bestämmer en språkmodell det lämpliga svaret och omvandlar den ursprungliga texten till ett svar.
Talsyntes ("TTS"): Detta steg omvandlar svarstexten tillbaka till talat ljud, med teknologier som ElevenLabs eller VALL-E som exempel.

Att strikt följa dessa tre steg kan leda till betydande förseningar. Om användare måste vänta fem sekunder för varje svar blir interaktionen besvärlig och onaturlig, vilket försämrar användarupplevelsen även om ljudet låter realistiskt.

Effektiv naturlig dialog fungerar inte sekventiellt:

Vi tänker, lyssnar och talar samtidigt.
Vi infogar naturligt bekräftelser som "ja" eller "hmm."
Vi förutser när någon kommer att sluta prata och svarar omedelbart.
Vi kan avbryta eller prata över någon på ett icke-stötande sätt.
Vi hanterar avbrott smidigt.
Vi kan delta i samtal med flera personer utan problem.

Att förbättra realtidsdialog handlar inte bara om att snabba upp varje neuralt nätverksprocess; det kräver en grundläggande omdesign av hela systemet. Vi behöver maximera överlappningen av dessa komponenter och lära oss att göra justeringar i realtid effektivt.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Applikationer och potentiell integration med Apples iOS

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

De potentiella applikationerna för denna teknologi är omfattande, från personliga och affärsmässiga användningar till att hjälpa samhällshälsovårdare att erbjuda bättre tjänster genom att interagera på lokala språk eller hjälpa individer med talhinder.

Rykten säger att denna teknologi potentiellt skulle kunna integreras i system som Apples iOS, vilket skulle erbjuda en mer sömlös och interaktiv användarupplevelse än Siri. Dock har detaljer om sådana samarbeten eller Voice Assistants fulla kapacitet inte officiellt bekräftats.

ElevenLabs Voice AI

En sak som är säker att finnas i varje avancerad röstassistent är banbrytande röst-AI. ElevenLabs modeller kombinerar egna metoder för kontextmedvetenhet och hög kompression för att leverera ultrarealistiskt, livligt tal över ett spektrum av känslor och språk. Vår kontextuella text to speech-modell är byggd för att förstå ordrelationer och justerar leveransen baserat på kontext. Den har inga hårdkodade funktioner, vilket innebär att den dynamiskt kan förutsäga tusentals röstegenskaper medan den genererar tal. Våra modeller är optimerade för specifika applikationer, såsom långformig och flerspråkig talgenerering eller latenskänsliga uppgifter.

Registrera dig för att få tillgång till ett professionellt AI-ljudverktyg och börja skapa innehåll eller bygga applikationer nu!

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatisera voiceover till videor, uppläsning av reklam, poddar och mycket mer med din egen röst

Utforska artiklar av ElevenLabs-teamet

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Impact

Expanding access: patients and clinicians can now apply directly on the ElevenLabs website

One year ago, the ElevenLabs Impact Program set out to provide one million voices to people with permanent speech loss caused by conditions such as ALS, head and neck cancer, cerebral palsy, and PSP. Today, we’re taking a major step toward that goal.

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in

Drivs av ElevenLabs Agenter