
Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz
Apresentando o Eleven v3 (alpha)
Experimente o v3A OpenAI tem expandido seu portfólio com novos produtos, e um dos mais comentados é a tecnologia de Assistente de Voz. Está prestes a revolucionar a forma como interagimos com máquinas usando a voz, mas muito sobre sua ampla implantação ainda está em segredo.
Supostamente, a OpenAI está desenvolvendo uma tecnologia que integra capacidades de reconhecimento de áudio, texto e imagem em um único produto. Essa tecnologia poderia, por exemplo, ajudar crianças com suas tarefas de matemática ou fornecer aos usuários informações práticas sobre seu ambiente imediato, como tradução de idiomas ou orientações para reparo de veículos.
O suposto Assistente de Voz é projetado para interagir naturalmente com os usuários por meio da fala. Ele aproveita avanços em Reconhecimento Automático de Fala (ASR), Modelos de Linguagem de Grande Escala (LLMs) e Text to Speech) sistemas de TTS. A integração dessas tecnologias permite que o Assistente de Voz entenda a entrada falada, processe a informação contextualmente e responda com uma voz natural e semelhante à humana.
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
Quase todos os sistemas de voz IA seguem três etapas:
Seguir estritamente essas três etapas pode levar a atrasos significativos. Se os usuários tiverem que esperar cinco segundos para cada resposta, a interação se torna complicada e não natural, diminuindo a experiência do usuário, mesmo que o áudio soe realista.
Diálogo natural eficaz não opera de forma sequencial:
Aprimorar o diálogo em tempo real não é apenas acelerar cada processo de rede neural; requer um redesenho fundamental de todo o sistema. Precisamos maximizar a sobreposição desses componentes e aprender a fazer ajustes em tempo real de forma eficaz.
OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
— Ananay (@ananayarora) May 11, 2024
(1/n) pic.twitter.com/KT8Hb54DwA
Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)
— Bindu Reddy (@bindureddy) May 13, 2024
Guess Apple decided that it couldn't make it on its own 🤷
The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
As aplicações potenciais dessa tecnologia são vastas, variando de usos pessoais e empresariais a ajudar trabalhadores de saúde comunitária a fornecer melhores serviços interagindo em idiomas locais ou auxiliando indivíduos com dificuldades de fala.
Rumores sugerem que essa tecnologia poderia ser integrada em sistemas como o iOS da Apple, oferecendo uma experiência de usuário mais fluida e interativa do que a Siri. No entanto, detalhes sobre tais colaborações ou as capacidades completas do Assistente de Voz não foram oficialmente confirmados.
Uma coisa que certamente estará presente em qualquer assistente de voz avançado é a voz IA de ponta. Os modelos da ElevenLabs combinam métodos proprietários para consciência de contexto e alta compressão para oferecer fala ultra-realista e natural em uma variedade de emoções e idiomas. Nosso modelo de texto para fala contextual é construído para entender relações entre palavras e ajusta a entrega com base no contexto. Ele também não possui recursos codificados, o que significa que pode prever dinamicamente milhares de características de voz enquanto gera fala. Nossos modelos são otimizados para aplicações específicas, como geração de fala de longa duração e multilíngue ou tarefas sensíveis à latência.
Cadastre-se para acessar um kit de ferramentas de áudio IA profissional e comece a criar conteúdo ou desenvolver aplicações agora!
Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning