
I używaj go do filmów, reklam, podcastów i nie tylko
Przedstawiamy Eleven v3 Alpha
Wypróbuj v3OpenAI rozszerza swoje portfolio o nowe produkty, a jednym z najczęściej omawianych jest ich technologia Voice Assistant. Ma zrewolucjonizować sposób, w jaki używamy głosu do interakcji z maszynami, choć wiele na temat jej szerokiego wdrożenia pozostaje tajemnicą.
Podobno OpenAI rozwija technologię, która integruje możliwości rozpoznawania dźwięku, tekstu i obrazu w jednym produkcie. Ta technologia mogłaby na przykład pomagać dzieciom w zadaniach z matematyki lub dostarczać użytkownikom praktycznych informacji o ich otoczeniu, takich jak tłumaczenie języka czy wskazówki dotyczące naprawy pojazdów.
Plotkowany Voice Assistant jest zaprojektowany do naturalnej interakcji z użytkownikami poprzez mowę. Wykorzystuje postępy w Automatic Speech Recognition (ASR), Large Language Models (LLMs) i Text to Speech (TTS). Integracja tych technologii pozwala Voice Assistant rozumieć mowę, przetwarzać informacje kontekstowo i odpowiadać naturalnym, ludzkim głosem.
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
Prawie wszystkie systemy głosowe AI działają w trzech krokach:
Ścisłe trzymanie się tych trzech etapów może prowadzić do znacznych opóźnień. Jeśli użytkownicy muszą czekać pięć sekund na każdą odpowiedź, interakcja staje się uciążliwa i nienaturalna, co pogarsza doświadczenie użytkownika, nawet jeśli dźwięk brzmi realistycznie.
Efektywny naturalny dialog nie działa sekwencyjnie:
Ulepszanie dialogu w czasie rzeczywistym to nie tylko przyspieszanie każdego procesu sieci neuronowej; wymaga to fundamentalnego przeprojektowania całego systemu. Musimy maksymalizować nakładanie się tych komponentów i uczyć się skutecznie dokonywać zmian w czasie rzeczywistym.
OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
— Ananay (@ananayarora) May 11, 2024
(1/n) pic.twitter.com/KT8Hb54DwA
Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)
— Bindu Reddy (@bindureddy) May 13, 2024
Guess Apple decided that it couldn't make it on its own 🤷
The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
Potencjalne zastosowania tej technologii są ogromne, od użytku osobistego i biznesowego po pomoc pracownikom służby zdrowia w lepszym świadczeniu usług poprzez interakcję w lokalnych językach lub wspieranie osób z zaburzeniami mowy.
Plotki sugerują, że ta technologia mogłaby zostać zintegrowana z systemami takimi jak iOS Apple, oferując bardziej płynne i interaktywne doświadczenie użytkownika niż Siri. Jednak szczegóły na temat takich współpracy lub pełnych możliwości Voice Assistant nie zostały oficjalnie potwierdzone.
Jedno jest pewne: w każdym zaawansowanym asystencie głosowym znajdzie się nowoczesny głos AI. Modele ElevenLabs łączą autorskie metody świadomości kontekstowej i wysokiej kompresji, aby dostarczać ultrarealistyczną, naturalną mowę w różnych emocjach i językach. Nasz kontekstowy model zamiany tekstu na mowę jest zbudowany tak, aby rozumieć relacje między słowami i dostosowywać sposób przekazu w zależności od kontekstu. Nie ma też zakodowanych na stałe funkcji, co oznacza, że może dynamicznie przewidywać tysiące cech głosu podczas generowania mowy. Nasze modele są zoptymalizowane do konkretnych zastosowań, takich jak generowanie długich form mowy wielojęzycznej czy zadania wrażliwe na opóźnienia.
Zarejestruj się, aby uzyskać dostęp do profesjonalnego zestawu narzędzi audio AI i zacznij tworzyć treści lub budować aplikacje już teraz!
I używaj go do filmów, reklam, podcastów i nie tylko
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.