
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Apresentando o Eleven v3 (alpha)
Experimente o v3Na nossa última publicação, mostramos algumas amostras longas geradas pelo nosso ferramenta de síntese de voz e demos uma breve visão geral de como o design único do nosso modelo permite produzir uma fala bem ritmada e não robótica. Hoje vamos mostrar que ela também é mais rica em emoções e mais consciente do contexto do que qualquer outra. Isso, por sua vez, a torna não apenas altamente envolvente de ouvir, mas também adequada para aplicações que vão desde narração de livros e videogames até publicidade.
As duas forças do nosso modelo - fluência e entonação adequada - vêm de uma vasta quantidade de dados de treinamento que ele viu (mais de 500 mil horas!), mas o fator central é como ele aprende com esses dados, o que se deve à forma como é construído. No nível mais básico, ele é feito para entender as emoções contidas na escrita e decidir se o falante deve soar feliz, zangado, triste ou neutro. Considere alguns exemplos:
Todas as diferenças de entonação e humor vêm puramente do texto - nada mais influenciou o resultado. A pontuação e o significado das palavras desempenham um papel principal na decisão de como entregar uma frase específica, mas note também como quando o falante está feliz com a vitória, o modelo produz convincentemente sons que não fazem parte da fala regular, como risadas (em breve lançaremos uma compilação das diferentes risadas que nossa IA é capaz de fazer!). Da mesma forma, ele exagera apropriadamente a reação quando o falante está divertido com algo hilário - é ‘tãããão engraçado’.
Mas saber o significado das palavras individuais não é suficiente. Nosso modelo é igualmente sensível à situação mais ampla em torno de cada enunciado - ele avalia se algo faz sentido pela forma como se conecta ao texto anterior e posterior. Essa perspectiva ampliada permite que ele entone fragmentos mais longos corretamente, sobrepondo um determinado raciocínio que se estende por várias frases com um padrão emocional unificador, como mostrado na nossa entrada anterior contendo conteúdo mais extenso. Mas também ajuda a evitar erros lógicos. Por exemplo, algumas palavras são escritas da mesma forma, mas têm significados diferentes, como ‘read’ no presente e passado ou ‘minute’ significando uma unidade de tempo ou algo pequeno. Decidir qual é apropriado depende do contexto:
Como projetamos nossa plataforma para atender às demandas de conteúdo longo, também precisamos que nosso modelo entenda que símbolos, abreviações e certas convenções comuns na escrita devem ser pronunciados de uma maneira específica ou não devem ser pronunciados literalmente. Por exemplo, o modelo precisa saber que FBI, TNT e ATM são pronunciados de forma diferente de UNESCO ou NASA. Da mesma forma, $3tr é perfeitamente aceitável na escrita, mas quando lido em voz alta, precisa se tornar ‘três trilhões de dólares’.
Reconhecer essas distinções sutis é crucial, já que nosso objetivo é minimizar a necessidade de intervenção humana no processo de geração. Afinal, não promovemos a capacidade da nossa ferramenta de gerar um audiolivro em minutos para que alguém tenha que ouvir todo o áudio e depois reescrever todo o texto. No entanto, mesmo que atualizemos continuamente as regras de pronúncia do nosso modelo, sempre é possível que algo o confunda. Para isso, estamos desenvolvendo um sistema para sinalizar incertezas, que permitirá aos usuários ver instantaneamente quais partes do texto o modelo achou problemáticas e ensiná-lo como devem ser ditas.
Todas as capacidades que mostramos são passos no caminho para tornar nosso software a ferramenta de voz IA mais versátil.
Editores de notícias já descobriram que aumentar sua presença em áudio é uma ótima maneira de reter assinantes. O grande benefício de incorporar cada artigo com sua leitura em áudio é que as pessoas podem ouvir enquanto fazem outra coisa. Aqueles editores que fazem isso costumam usar dubladores, o que é caro e nem todos os artigos são cobertos. Ou usam seus próprios repórteres para ler histórias, o que consome tempo, significando também caro. Aqueles que usam fala sintética para narrar seu conteúdo economizam dinheiro, mas pagam outro preço ao comprometer a qualidade. Agora, com a ElevenLabs, não há necessidade de comprometer e você pode ter o melhor dos dois mundos.
Ou imagine gerar audiolivros com locuções distintas e emocionalmente envolventes para todos os personagens, em minutos. Isso não só apresenta novas formas de se envolver com livros, mas também facilita muito o acesso para pessoas com dificuldades de aprendizagem.
Basta pensar nas possibilidades agora abertas para desenvolvedores de videogames que não precisam mais considerar se um personagem específico é importante o suficiente para justificar o custo considerável de dublá-lo com atores reais. Todos os NPCs agora podem ter suas próprias vozes e personalidades.
Agências de publicidade e produtores agora podem experimentar livremente e ajustar locuções para se adequar ao tom de qualquer campanha - seja para um canal de TV esportivo ou para uma marca de relógios de luxo. A voz de qualquer ator pode ser licenciada para clonagem, permitindo que mudanças sejam aplicadas instantaneamente e sem a presença física do ator. Ou, se decidirem usar uma voz totalmente sintética, os anunciantes também não precisam se preocupar em pagar por direitos de voz.
Assistentes virtuais podem se tornar mais realistas, tanto porque a clonagem de voz permite que falem com uma voz familiar para um usuário específico, quanto porque essa nova profundidade de entrega os tornaria mais naturais para interagir.
Vá aqui para se inscrever na nossa plataforma beta e experimentar por si mesmo. Estamos constantemente fazendo melhorias e todo feedback dos usuários é muito valioso para nós nesta fase inicial. Aproveite!
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning