OpenAI voice: use imagens e comandos de voz no ChatGPT

Q: O que é o OpenAI Voice?

OpenAI Voice é uma tecnologia inovadora de síntese de voz desenvolvida pela OpenAI. Ela permite conversas mais humanas com IA, permitindo que os usuários interajam vocalmente com o ChatGPT e recebam respostas auditivas. O sistema é apoiado pelo Whisper, um sistema de reconhecimento automático de fala, garantindo robustez e versatilidade na compreensão e replicação da fala humana.

1 de set. de 2023 • 13 minutos de leitura

Converse com o ChatGPT usando sua própria voz

A smartphone displaying a holographic microphone with voice command icons and digital sound waves.

Já se pegou pensando na possibilidade de conversar com o ChatGPT usando sua própria voz ou compartilhar imagens com ele? Parece que seus sonhos visionários estão prestes a se tornar realidade.

Os avanços revolucionários da OpenAI inauguram uma era inovadora onde voz e imagens se unem, permitindo que o ChatGPT ressoe não apenas com suas teclas, mas também com suas palavras faladas e visuais compartilhados.

Imagine-se passando por uma maravilha arquitetônica e mergulhando em uma conversa animada sobre sua história ou orquestrando uma discussão culinária inspirada por uma foto do interior da sua geladeira.

Graças à integração de um modelo de text-to-speech de última geração, os engajamentos com o ChatGPT evoluem de meras interações para diálogos imersivos. Ele transcende a consulta tradicional, oferecendo uma plataforma para conversas fluidas, seja para uma história de ninar divertida ou para resolver uma dúvida culinária.

Este é o início de uma era onde voz, visão e intelecto virtual se fundem perfeitamente.

Então, você pode falar com o ChatGPT?

Sim, você pode. Continue lendo para descobrir como.

Resumo do artigo

O que é o OpenAI voice?
Tudo o que você pode fazer com o OpenAI voice
Limitações do OpenAI voice
Voz IA generativa

O que é o OpenAI voice?

OpenAI Voice é uma tecnologia de ponta que faz com que conversas baseadas em IA soem mais humanas. Um componente significativo de seu sucesso é atribuído ao modelo Whisper.

Whisper é um sistema de reconhecimento automático de fala que foi treinado com uma vasta quantidade de dados — cerca de 680.000 horas de conteúdo multilíngue da web.

Esse treinamento extenso permite que ele entenda uma ampla gama de sotaques, se adapte a ruídos de fundo e compreenda linguagem técnica. O sistema também é hábil em traduzir vários idiomas para o inglês.

A forma como o Whisper funciona é bastante simples. Quando recebe uma entrada de áudio, ele a divide em segmentos de 30 segundos. Esses segmentos são então transformados em um formato chamado espectrograma log-Mel.

Simplificando, um log-Mel spectrogram é uma representação visual do espectro de frequências em um sinal sonoro à medida que mudam com o tempo. Ele destaca os padrões melódicos no áudio, facilitando a análise e processamento das informações pelo sistema.

Após essa transformação, um codificador processa os dados e um decodificador prevê o texto correspondente. Esse processo também inclui indicadores ou tokens especiais que podem identificar idiomas e até traduzir a fala para o inglês.

Vale a pena notar que, enquanto muitos modelos existentes dependem de conjuntos de dados específicos e limitados, a força do Whisper vem de seu treinamento amplo e diversificado.

Embora possa não superar sempre modelos projetados para tarefas muito específicas, seu treinamento abrangente significa que é versátil e pode lidar com uma gama mais ampla de desafios.

Por exemplo, ele pode entender e converter uma quantidade significativa de conteúdo de áudio não inglês, mantendo o idioma original ou traduzindo para o inglês.

Assim, quando o assistente de voz do ChatGPT lê uma história de ninar ou responde a uma pergunta, está aproveitando o poder do Whisper. Essa combinação garante interações que são tanto naturais quanto informadas, aproximando a conversa entre IA e humanos.

Tudo o que você pode fazer com o OpenAI voice

O gerador de voz do ChatGPT não é apenas uma ferramenta tecnológica, é um portal para experiências imersivas e multissensoriais que tornam as interações digitais mais intuitivas e abrangentes.

Vamos explorar suas amplas capacidades:

Fale perguntas para o ChatGPT

Acabaram-se os dias em que as interações com o ChatGPT se limitavam a digitar. Agora, iniciar uma conversa é tão simples quanto:

Abrir o aplicativo ChatGPT e fazer login com sua conta OpenAI.
Tocar em 'nova pergunta'.
Selecionar o ícone de fone de ouvido.
Escolher uma voz preferida.
Fazer sua pergunta em voz alta.
Aguardar um momento para receber uma resposta articulada vocalmente.

Imagine perguntar casualmente, "Me fale sobre o período renascentista?" e receber uma resposta articulada e detalhada.

Essa dinâmica oferece mais do que apenas respostas. Proporciona uma experiência de discurso semelhante ao humano com uma IA.

Screenshots of a voice selection and calling interface on a mobile device, showing options to choose a voice, a calling screen with a large circle, and a call in progress with options to pause or end the call.

Modelo de text-to-speech

A nova tecnologia de voz da OpenAI anuncia uma era de diversidade auditiva. Dos tons tranquilos de um barítono aos tons vibrantes de um soprano, o OpenAI Voice encapsula um espectro de vozes.

Além da mera replicação, essa tecnologia cria vozes sintéticas que têm uma semelhança impressionante com a fala humana genuína, aumentando a autenticidade nas interações.

No entanto, é importante notar que, embora as aplicações potenciais sejam vastas, elas vêm com considerações éticas. A precisão da síntese de voz, embora notável, pode ser mal utilizada para engano ou personificação.

A OpenAI reconhece esses desafios e tomou medidas ativas para mitigar o uso indevido, principalmente focando em casos de uso específicos e benéficos, como o chat por voz.

Entrada de imagem

A capacidade de "ver" e compreender informações visuais leva o OpenAI Voice a uma nova fronteira. Mas interpretar imagens é mais do que apenas entender o conteúdo; é sobre garantir segurança e privacidade e, ao mesmo tempo, fornecer o mesmo nível de insight que um ser humano com conhecimento sobre o assunto.

O trabalho da OpenAI com 'Be My Eyes', um aplicativo projetado para ajudar pessoas cegas e com baixa visão, foi fundamental na formação dessa capacidade de visão.

Por exemplo, um usuário pode compartilhar uma imagem das configurações da sua TV, e o OpenAI Voice pode ajudar, mesmo que haja uma pessoa ao fundo.

Para garantir a privacidade individual, a OpenAI implementou medidas para limitar a análise direta de pessoas dentro das imagens, enfatizando a importância tanto da utilidade quanto das considerações éticas.

Three screenshots of a mobile app displaying text-based answers to questions about a car, a building, and a skyscraper, with images of a Suzuki Jimny, the Palace of Westminster, and the Burj Khalifa.

Imagens usadas: Pexels, Pexels, Pexels

Traduzindo podcasts

Em colaboração com o Spotify, o OpenAI Voice está prestes a redefinir o cenário dos podcasts.

Aproveitando a tecnologia de geração de voz da OpenAI, o Spotify pretende oferecer traduções de podcasts que não são apenas linguisticamente precisas, mas também emocionalmente congruentes. Imagine ouvir um podcast originalmente em inglês, agora disponível em vários idiomas, tudo enquanto preserva as nuances únicas do locutor original.

Isso vai muito além da mera tradução. Representa uma recriação que garante que ouvintes de todo o mundo possam se conectar profundamente com o conteúdo.

Limitações do OpenAI voice

Embora o OpenAI Voice seja um farol de inovação no campo das interações com IA, é vital entender que, como todas as maravilhas tecnológicas, ele vem com seu próprio conjunto de limitações:

Reconhecimento de imagem e segurança:

A visão, conforme incorporada no ChatGPT, visa principalmente melhorar as interações do dia a dia, funcionando de forma ideal ao interpretar o que os usuários encontram visualmente. Colaborações com plataformas como 'Be My Eyes' enriqueceram a perspectiva da OpenAI sobre capacidades visuais, tornando-a sensível às necessidades dos deficientes visuais.

Por exemplo, os usuários podem compartilhar uma imagem de um parque lotado para perguntar sobre espécies de plantas, mesmo que haja pessoas ao fundo desfrutando de um piquenique.

Essa funcionalidade de visão não é infalível, no entanto. A OpenAI incorporou medidas para limitar o escopo do ChatGPT em fazer observações definitivas sobre indivíduos dentro das imagens, dado que a precisão do modelo pode variar e a necessidade primordial de preservar a privacidade individual.

À medida que o feedback do mundo real chega, a ênfase está em refinar essas medidas de proteção, garantindo um equilíbrio entre funcionalidade e segurança. Para mergulhar mais fundo nas complexidades da entrada de imagem, este estudo baseado no cartão do sistema oferece insights valiosos.

Tópicos especializados:

O OpenAI Voice, embora impressionante, não é um substituto para aconselhamento especializado, especialmente em setores especializados como pesquisa ou aconselhamento médico. Os usuários são incentivados a abordar esses tópicos de alto risco com cautela, sempre buscando verificação antes de confiar na saída do modelo.

Proficiência linguística:

Embora hábil em transcrever texto em inglês, a proficiência do OpenAI Voice diminui com certos idiomas não ingleses, particularmente aqueles que usam scripts não romanos. Consequentemente, os usuários não ingleses são aconselhados a ter cautela ao usar o recurso de text-to-speech em tais idiomas.

Preocupações com clonagem de voz:

A capacidade de gerar vozes sintéticas quase perfeitas, embora inovadora, vem com a sombra do potencial uso indevido. A personificação e atividades fraudulentas são preocupações que os usuários devem estar cientes, destacando a importância do uso ético e informado.

Embora o OpenAI Voice ofereça uma infinidade de oportunidades para melhorar as interações digitais, reconhecer seus limites é crucial para aproveitar seu potencial de forma responsável.

Voz IA generativa

Em um mundo inundado de vozes digitais, a verdadeira inovação não está apenas em imitar a fala, mas em criar experiências auditivas personalizadas.

Os verdadeiros pioneiros nesse espaço são aqueles que olham além das barreiras linguísticas para superar divisões emocionais e culturais.

A ElevenLabs, com sua abordagem inovadora para síntese de voz, emerge como uma verdadeira revolucionária nesse domínio.

Conectando narrativas globais com a ElevenLabs

A síntese de voz, em sua essência, é sobre comunicação. Mas para a ElevenLabs, é um compromisso com a ressonância global. Sua tecnologia avançada de IA multilíngue garante que o conteúdo não apenas alcance o público, mas realmente se conecte com ele, independentemente das fronteiras geográficas.

Com capacidades para oferecer text to speech em 32 idiomas, a IA da ElevenLabs vai além das soluções genéricas de text-to-speech. Ela utiliza aprendizado profundo para produzir fala clara, emocionalmente carregada e culturalmente sintonizada.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Crie vozes naturais com nosso sistema de Text to Speech (TTS), desenvolvido para narração de alta qualidade, jogos, vídeos e acessibilidade. Vozes expressivas, suporte multilíngue e integração com API facilitam a expansão de projetos pessoais para fluxos de trabalho empresariais.

A ElevenLabs garante que a narrativa permaneça autêntica, encapsulando sutilezas linguísticas e nuances regionais.

A verdadeira maravilha, no entanto, está na integração perfeita da Clonagem de Voz Profissional com o modelo TTS Multilíngue. Uma vez que você cria uma réplica digital de uma voz com a ElevenLabs, ela pode articular conteúdo em qualquer um dos idiomas suportados.

A melhor parte é que suas características vocais únicas permanecem intactas.

Imagine articular em idiomas desconhecidos para você, mas mantendo sua assinatura vocal autêntica. É a promessa de comunicação global sem perder a individualidade.

Navegando pelo cenário ético da clonagem de voz

A clonagem de voz, a imitação digital da voz de um indivíduo, é uma faca de dois gumes. Embora tenha um potencial imenso, as considerações éticas são primordiais.

Com a ElevenLabs, a clonagem de voz é transformada em um processo seguro e transparente. Ao enviar uma voz gravada, os usuários podem criar sua contraparte digital, abrindo caminho para a nova geração de fala. No entanto, os protocolos de segurança são rigorosos.

A clonagem de voz é mais segura quando é pessoal: usando sua própria voz e conteúdo. Se for usar a voz de outra pessoa, a permissão é fundamental.

Sem consentimento, os propósitos não comerciais têm uma janela estreita, e mesmo assim, a ênfase está em garantir a privacidade e respeitar os direitos individuais. Atividades como estudo privado, sátira ou expressão artística são permitidas.

No entanto, clonar vozes para fins maliciosos, seja fraude ou discurso de ódio, é estritamente proibido. Tais ações não apenas vão contra os princípios da ElevenLabs, mas também podem atrair consequências legais.

Para aprofundar-se nas melhores práticas e nuances da clonagem de voz, a ElevenLabs fornece insights sobre como usar a clonagem de voz com segurança.

Enquanto os horizontes da voz IA continuam a se expandir, empresas como ElevenLabs estabelecem o padrão de ouro ao unir inovação com responsabilidade.

A ElevenLabs está construindo um mundo onde as vozes não são apenas ouvidas, mas genuinamente compreendidas através das fronteiras e além das barreiras.

VOICE CLONING

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz

Perguntas Frequentes

O OpenAI Voice vai além de apenas responder perguntas. Ao aproveitar os vastos dados de treinamento e o modelo Whisper, ele pode entender nuances intrincadas na voz, desde sotaques até tons emocionais. Sua integração com o reconhecimento de imagem significa que ele não está apenas ouvindo, mas também "vendo" e compreendendo informações visuais, tornando-o um companheiro de IA multissensorial.

Sim, a OpenAI reconhece os riscos potenciais, especialmente com o reconhecimento de imagem em domínios de alto risco e o uso indevido da clonagem de voz. Medidas foram implementadas para limitar o escopo do sistema em fazer observações definitivas sobre pessoas dentro de imagens. Os usuários também são incentivados a ter cautela com a clonagem de voz, dado o potencial de personificação e engano.

A ElevenLabs é pioneira no campo da síntese de fala global. Sua tecnologia avançada de IA multilíngue garante que o conteúdo não apenas alcance o público global, mas realmente ressoe com eles. Com capacidades como "text to speech em 32 idiomas", eles quebram barreiras linguísticas enquanto preservam a autenticidade emocional e cultural. Além disso, a ElevenLabs integra a Clonagem de Voz Profissional com seu modelo TTS Multilíngue, permitindo que uma voz única articule em vários idiomas, oferecendo uma combinação de alcance global com toque pessoal.

Explore artigos da equipe ElevenLabs

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Crie com o áudio IA da mais alta qualidade

Comece agora - é grátis

Já tem uma conta? Entrar

Desenvolvido por ElevenLabs Agentes