Apresentando o Eleven v3 (alpha)

Experimente o v3

Assistente de Voz OpenAI

E sua suposta integração no iOS 18 da Apple

A OpenAI tem expandido seu portfólio com novos produtos, e um dos mais comentados é a tecnologia de Assistente de Voz. Está prestes a revolucionar a forma como interagimos com máquinas usando a voz, mas muito sobre sua ampla implantação ainda está em segredo.

Supostamente, a OpenAI está desenvolvendo uma tecnologia que integra capacidades de reconhecimento de áudio, texto e imagem em um único produto. Essa tecnologia poderia, por exemplo, ajudar crianças com suas tarefas de matemática ou fornecer aos usuários informações práticas sobre seu ambiente imediato, como tradução de idiomas ou orientações para reparo de veículos.

O que é o Assistente de Voz da OpenAI?

O suposto Assistente de Voz é projetado para interagir naturalmente com os usuários por meio da fala. Ele aproveita avanços em Reconhecimento Automático de Fala (ASR), Modelos de Linguagem de Grande Escala (LLMs) e Text to Speech) sistemas de TTS. A integração dessas tecnologias permite que o Assistente de Voz entenda a entrada falada, processe a informação contextualmente e responda com uma voz natural e semelhante à humana.

Quase todos os sistemas de voz IA seguem três etapas:

  1. Reconhecimento de Fala ("ASR"): Isso converte áudio falado em texto. Um exemplo de tecnologia é o Whisper.
  2. Processamento de Modelo de Linguagem: Aqui, um modelo de linguagem determina a resposta apropriada, transformando o texto inicial em texto de resposta.
  3. Síntese de Fala ("TTS"): Esta etapa converte o texto de resposta de volta em áudio falado, com tecnologias como ElevenLabs ou VALL-E como exemplos.

Seguir estritamente essas três etapas pode levar a atrasos significativos. Se os usuários tiverem que esperar cinco segundos para cada resposta, a interação se torna complicada e não natural, diminuindo a experiência do usuário, mesmo que o áudio soe realista.

Diálogo natural eficaz não opera de forma sequencial:

  • Pensamos, ouvimos e falamos simultaneamente.
  • Interrompemos naturalmente com afirmações como "sim" ou "hmm".
  • Antecipamos quando alguém vai terminar de falar e respondemos imediatamente.
  • Podemos interromper ou falar por cima de alguém de forma não ofensiva.
  • Lidamos com interrupções de forma tranquila.
  • Podemos participar de conversas envolvendo várias pessoas sem esforço.

Aprimorar o diálogo em tempo real não é apenas acelerar cada processo de rede neural; requer um redesenho fundamental de todo o sistema. Precisamos maximizar a sobreposição desses componentes e aprender a fazer ajustes em tempo real de forma eficaz.

Aplicações e potencial integração com o iOS da Apple

As aplicações potenciais dessa tecnologia são vastas, variando de usos pessoais e empresariais a ajudar trabalhadores de saúde comunitária a fornecer melhores serviços interagindo em idiomas locais ou auxiliando indivíduos com dificuldades de fala.

Rumores sugerem que essa tecnologia poderia ser integrada em sistemas como o iOS da Apple, oferecendo uma experiência de usuário mais fluida e interativa do que a Siri. No entanto, detalhes sobre tais colaborações ou as capacidades completas do Assistente de Voz não foram oficialmente confirmados.

Voz IA da ElevenLabs

Uma coisa que certamente estará presente em qualquer assistente de voz avançado é a voz IA de ponta. Os modelos da ElevenLabs combinam métodos proprietários para consciência de contexto e alta compressão para oferecer fala ultra-realista e natural em uma variedade de emoções e idiomas. Nosso modelo de texto para fala contextual é construído para entender relações entre palavras e ajusta a entrega com base no contexto. Ele também não possui recursos codificados, o que significa que pode prever dinamicamente milhares de características de voz enquanto gera fala. Nossos modelos são otimizados para aplicações específicas, como geração de fala de longa duração e multilíngue ou tarefas sensíveis à latência.

Cadastre-se para acessar um kit de ferramentas de áudio IA profissional e comece a criar conteúdo ou desenvolver aplicações agora!

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz

Explore artigos da equipe ElevenLabs

ElevenLabs

Create with the highest quality AI Audio

Get started free

Já tem uma conta? Log in