Assistente de Voz OpenAI

13 de mai. de 2024 • 5 minutos de leitura

E sua suposta integração no iOS 18 da Apple

A OpenAI tem expandido seu portfólio com novos produtos, e um dos mais comentados é a tecnologia de Assistente de Voz. Está prestes a revolucionar a forma como interagimos com máquinas usando a voz, mas muito sobre sua ampla implantação ainda está em segredo.

Supostamente, a OpenAI está desenvolvendo uma tecnologia que integra capacidades de reconhecimento de áudio, texto e imagem em um único produto. Essa tecnologia poderia, por exemplo, ajudar crianças com suas tarefas de matemática ou fornecer aos usuários informações práticas sobre seu ambiente imediato, como tradução de idiomas ou orientações para reparo de veículos.

O que é o Assistente de Voz da OpenAI?

O suposto Assistente de Voz é projetado para interagir naturalmente com os usuários por meio da fala. Ele aproveita avanços em Reconhecimento Automático de Fala (ASR), Modelos de Linguagem de Grande Escala (LLMs) e Text to Speech) sistemas de TTS. A integração dessas tecnologias permite que o Assistente de Voz entenda a entrada falada, processe a informação contextualmente e responda com uma voz natural e semelhante à humana.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Quase todos os sistemas de voz IA seguem três etapas:

Reconhecimento de Fala ("ASR"): Isso converte áudio falado em texto. Um exemplo de tecnologia é o Whisper.
Processamento de Modelo de Linguagem: Aqui, um modelo de linguagem determina a resposta apropriada, transformando o texto inicial em texto de resposta.
Síntese de Fala ("TTS"): Esta etapa converte o texto de resposta de volta em áudio falado, com tecnologias como ElevenLabs ou VALL-E como exemplos.

Seguir estritamente essas três etapas pode levar a atrasos significativos. Se os usuários tiverem que esperar cinco segundos para cada resposta, a interação se torna complicada e não natural, diminuindo a experiência do usuário, mesmo que o áudio soe realista.

Diálogo natural eficaz não opera de forma sequencial:

Pensamos, ouvimos e falamos simultaneamente.
Interrompemos naturalmente com afirmações como "sim" ou "hmm".
Antecipamos quando alguém vai terminar de falar e respondemos imediatamente.
Podemos interromper ou falar por cima de alguém de forma não ofensiva.
Lidamos com interrupções de forma tranquila.
Podemos participar de conversas envolvendo várias pessoas sem esforço.

Aprimorar o diálogo em tempo real não é apenas acelerar cada processo de rede neural; requer um redesenho fundamental de todo o sistema. Precisamos maximizar a sobreposição desses componentes e aprender a fazer ajustes em tempo real de forma eficaz.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Aplicações e potencial integração com o iOS da Apple

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

As aplicações potenciais dessa tecnologia são vastas, variando de usos pessoais e empresariais a ajudar trabalhadores de saúde comunitária a fornecer melhores serviços interagindo em idiomas locais ou auxiliando indivíduos com dificuldades de fala.

Rumores sugerem que essa tecnologia poderia ser integrada em sistemas como o iOS da Apple, oferecendo uma experiência de usuário mais fluida e interativa do que a Siri. No entanto, detalhes sobre tais colaborações ou as capacidades completas do Assistente de Voz não foram oficialmente confirmados.

Voz IA da ElevenLabs

Uma coisa que certamente estará presente em qualquer assistente de voz avançado é a voz IA de ponta. Os modelos da ElevenLabs combinam métodos proprietários para consciência de contexto e alta compressão para oferecer fala ultra-realista e natural em uma variedade de emoções e idiomas. Nosso modelo de texto para fala contextual é construído para entender relações entre palavras e ajusta a entrega com base no contexto. Ele também não possui recursos codificados, o que significa que pode prever dinamicamente milhares de características de voz enquanto gera fala. Nossos modelos são otimizados para aplicações específicas, como geração de fala de longa duração e multilíngue ou tarefas sensíveis à latência.

Cadastre-se para acessar um kit de ferramentas de áudio IA profissional e comece a criar conteúdo ou desenvolver aplicações agora!

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz

Explore artigos da equipe ElevenLabs

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Impact

Expanding access: patients and clinicians can now apply directly on the ElevenLabs website

One year ago, the ElevenLabs Impact Program set out to provide one million voices to people with permanent speech loss caused by conditions such as ALS, head and neck cancer, cerebral palsy, and PSP. Today, we’re taking a major step toward that goal.

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar

Desenvolvido por ElevenLabs Agentes