Asystent głosowy OpenAI

13 maj 2024 • 5 minut czytania

I jego rzekoma integracja z iOS 18 od Apple

OpenAI rozszerza swoje portfolio o nowe produkty, a jednym z najczęściej omawianych jest ich technologia Voice Assistant. Ma zrewolucjonizować sposób, w jaki używamy głosu do interakcji z maszynami, choć wiele na temat jej szerokiego wdrożenia pozostaje tajemnicą.

Podobno OpenAI rozwija technologię, która integruje możliwości rozpoznawania dźwięku, tekstu i obrazu w jednym produkcie. Ta technologia mogłaby na przykład pomagać dzieciom w zadaniach z matematyki lub dostarczać użytkownikom praktycznych informacji o ich otoczeniu, takich jak tłumaczenie języka czy wskazówki dotyczące naprawy pojazdów.

Czym jest Voice Assistant OpenAI?

Plotkowany Voice Assistant jest zaprojektowany do naturalnej interakcji z użytkownikami poprzez mowę. Wykorzystuje postępy w Automatic Speech Recognition (ASR), Large Language Models (LLMs) i Text to Speech (TTS). Integracja tych technologii pozwala Voice Assistant rozumieć mowę, przetwarzać informacje kontekstowo i odpowiadać naturalnym, ludzkim głosem.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Prawie wszystkie systemy głosowe AI działają w trzech krokach:

Rozpoznawanie mowy ("ASR"): To zamienia dźwięk na tekst. Przykładem technologii jest Whisper.
Przetwarzanie modelu językowego: Tutaj model językowy określa odpowiednią odpowiedź, przekształcając początkowy tekst w tekst odpowiedzi.
Synteza mowy ("TTS"): Ten krok zamienia tekst odpowiedzi z powrotem na dźwięk, z technologiami takimi jak ElevenLabs czy VALL-E jako przykładami.

Ścisłe trzymanie się tych trzech etapów może prowadzić do znacznych opóźnień. Jeśli użytkownicy muszą czekać pięć sekund na każdą odpowiedź, interakcja staje się uciążliwa i nienaturalna, co pogarsza doświadczenie użytkownika, nawet jeśli dźwięk brzmi realistycznie.

Efektywny naturalny dialog nie działa sekwencyjnie:

Myślimy, słuchamy i mówimy jednocześnie.
Naturalnie wtrącamy potwierdzenia jak "tak" czy "hmm."
Przewidujemy, kiedy ktoś skończy mówić i odpowiadamy od razu.
Możemy przerywać lub mówić jednocześnie w nieobraźliwy sposób.
Radzimy sobie z przerwami płynnie.
Możemy bez trudu prowadzić rozmowy z wieloma osobami.

Ulepszanie dialogu w czasie rzeczywistym to nie tylko przyspieszanie każdego procesu sieci neuronowej; wymaga to fundamentalnego przeprojektowania całego systemu. Musimy maksymalizować nakładanie się tych komponentów i uczyć się skutecznie dokonywać zmian w czasie rzeczywistym.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Zastosowania i potencjalna integracja z iOS Apple

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

Potencjalne zastosowania tej technologii są ogromne, od użytku osobistego i biznesowego po pomoc pracownikom służby zdrowia w lepszym świadczeniu usług poprzez interakcję w lokalnych językach lub wspieranie osób z zaburzeniami mowy.

Plotki sugerują, że ta technologia mogłaby zostać zintegrowana z systemami takimi jak iOS Apple, oferując bardziej płynne i interaktywne doświadczenie użytkownika niż Siri. Jednak szczegóły na temat takich współpracy lub pełnych możliwości Voice Assistant nie zostały oficjalnie potwierdzone.

Głos AI ElevenLabs

Jedno jest pewne: w każdym zaawansowanym asystencie głosowym znajdzie się nowoczesny głos AI. Modele ElevenLabs łączą autorskie metody świadomości kontekstowej i wysokiej kompresji, aby dostarczać ultrarealistyczną, naturalną mowę w różnych emocjach i językach. Nasz kontekstowy model zamiany tekstu na mowę jest zbudowany tak, aby rozumieć relacje między słowami i dostosowywać sposób przekazu w zależności od kontekstu. Nie ma też zakodowanych na stałe funkcji, co oznacza, że może dynamicznie przewidywać tysiące cech głosu podczas generowania mowy. Nasze modele są zoptymalizowane do konkretnych zastosowań, takich jak generowanie długich form mowy wielojęzycznej czy zadania wrażliwe na opóźnienia.

Zarejestruj się, aby uzyskać dostęp do profesjonalnego zestawu narzędzi audio AI i zacznij tworzyć treści lub budować aplikacje już teraz!

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

I używaj go do filmów, reklam, podcastów i nie tylko

Przeglądaj artykuły zespołu ElevenLabs

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Impact

Expanding access: patients and clinicians can now apply directly on the ElevenLabs website

One year ago, the ElevenLabs Impact Program set out to provide one million voices to people with permanent speech loss caused by conditions such as ALS, head and neck cancer, cerebral palsy, and PSP. Today, we’re taking a major step toward that goal.

Twórz z najwyższą jakością dźwięku AI

Zacznij za darmo

Masz już konto? Zaloguj się

Napędzane przez ElevenLabs Agenci