Apresentando o Eleven v3 (alpha)

Experimente o v3

Texto para voz: uma ferramenta indispensável para escritores

Com o Text to Speech, histórias podem ser ouvidas imediatamente após a publicação, em uma variedade de vozes e estilos de entrega

A cluttered workspace with a laptop, open books, a cup of coffee, a typewriter, headphones, sticky notes, and various papers on a desk and wall.

Resumo em tópicos:

  • Avançado Text to Speech tecnologia de fala sintetizada semelhante à humana.
  • Text to Speech para a indústria editorial
  • Visão geral do modelo único de síntese de fala da ElevenLabs
  • Introdução ao Studio, uma ferramenta abrangente para criar conteúdo de áudio de longa duração.
  • Nosso modelo multilíngue suporta 28 idiomas para alcance global.
  • Tecnologias de Voice Design e Professional Voice Cloning para criar vozes distintas e autênticas.

Introdução à tecnologia de texto para fala

Text to Speech (TTS) tecnologia, em sua essência, transforma conteúdo escrito em fala audível. Nos últimos anos, com avanços significativos em aprendizado de máquina, TTS a tecnologia evoluiu a um ponto em que a fala sintetizada é praticamente indistinguível da narração humana. O realismo e a expressividade alcançados pelos modernos TTS sistemas oferecem um potencial incomparável, especialmente para a indústria editorial.

O paradigma editorial: benefícios do texto para fala

Para editores de notícias, o cenário sonoro não é apenas um campo emergente, mas uma necessidade para o engajamento. Desenvolver uma presença em áudio tem se mostrado eficaz para aumentar a retenção e satisfação do usuário. Enquanto o caminho tradicional envolveria contratar dubladores ou repórteres para narrar, esses métodos não são eficientes em termos de tempo ou custo. Com o Text to Speech, histórias podem ser vocalizadas imediatamente após a publicação, garantindo que o conteúdo permaneça fresco, relevante e de alta qualidade.

Como a Eleven é diferente?

Como alcançamos uma entrega humana mesmo em textos muito longos se deve à forma como construímos nosso modelo. Ele é treinado para entender o que está sendo dito e ajustar a entrega de acordo. Faz isso levando em conta não apenas o significado das palavras, mas também o contexto ao redor de cada enunciado.

Algoritmos tradicionais de geração de fala produzem enunciados com base em cada sentença. Isso é menos exigente computacionalmente, mas soa imediatamente robótico. Emoções e entonação muitas vezes precisam se estender e ressoar por várias sentenças para unir um determinado raciocínio. Tom e ritmo transmitem intenção, que é realmente o que faz a fala soar humana em primeiro lugar. Então, em vez de gerar cada enunciado separadamente, nosso modelo leva em conta o contexto ao redor, mantendo o fluxo e a prosódia adequados em todo o material gerado. Essa profundidade emocional, juntamente com a qualidade de áudio superior, oferece aos usuários a ferramenta de narração mais genuína e envolvente disponível.

Gerando conteúdo de longa duração com o Studio

Studio é nosso fluxo de trabalho completo para criar audiolivros em minutos. Oferece um nível sem precedentes de controle sobre suas criações de áudio, com a capacidade de regenerar partes específicas do áudio, atribuir diferentes locutores a fragmentos de texto específicos, importar diretamente arquivos de vários formatos e muito mais.

Começando

Navegar pelo Studio é fácil e intuitivo.

  1. Selecione Studio no menu superior.
  2. Clique em Criar Novo Projeto.
  3. Escolha como você gostaria de iniciar seu Projeto.
  4. Comece a criar seu texto.
  5. Clique em Converter para renderizar todo o seu Projeto de uma vez, ou use Reproduzir & Regenerar para testar fragmentos específicos.
 / 

Destaques de recursos

O Studio oferece uma experiência de usuário direta, semelhante ao uso do Google Docs, com uma interface intuitiva e centrada no usuário, suportando uma variedade de recursos de edição:

  1. Conversão completa: Use um único botão para renderizar todo o seu Projeto de uma vez, ou use Reproduzir & Regenerar para testar fragmentos específicos.
  2. Atribuição de locutores: Atribua diferentes fragmentos de texto a vários locutores; escolha vozes padrão para títulos e parágrafos.
  3. Regenerar fragmentos de áudio: Regenerar perfeitamente segmentos específicos dentro de fragmentos de áudio maiores, mantendo o contexto intacto.
  4. Inserir pausas (disponível ainda esta semana): Ajuste manualmente o comprimento das pausas (até 3s inicialmente) entre segmentos de fala para ajustar o ritmo.
  5. Segmentar por capítulo: Estruture seu texto em seções para focar em um fragmento específico de cada vez.
  6. Salvar e retomar progresso: Pause convenientemente seu trabalho e retome exatamente de onde parou.
  7. Importar arquivos: O Studio suporta arquivos .epub, .pdf e .txt, bem como URLs para um fluxo de trabalho mais simplificado
  8. Regeração inteligente: Ao retomar o trabalho em um projeto já gerado, você será cobrado apenas pela regeneração de fragmentos alterados, não pelo projeto inteiro
Screenshot of an audiobook editing interface with highlighted text and two book cover images titled "Discover Daily" and "Dune."

Seu fluxo de trabalho completo para transformar livros em audiolivros e roteiros em podcasts

Compatibilidade

O Studio está ao lado de Speech Synthesis, VoiceLab, e Voice Library, servindo como uma solução abrangente para síntese de áudio de longa duração. Além disso, está perfeitamente integrado com Professional Voice Cloning, Voice Library e nosso modelo multilíngue.

  • Clonagem de voz profissional: Gere conteúdo de áudio de longa duração com sua própria voz. Você também pode compartilhar seu clone de voz profissional via Voice Library e ganhar recompensas de caracteres quando outros criarem projetos usando sua voz.
  • Biblioteca de vozes: Escolha a voz perfeita para sua narrativa entre as inúmeras vozes criadas por nossa comunidade. Selecione entre uma ampla gama de audiolivro vozes: épico, barítono, alto, tenor, nasal, rouco, sedutor, sedutor, áspero, assustador, e mais. Perfeito para quando você precisa dar voz a um homem ou mulher adulto, homem ou mulher idoso, mentor sábio, robô futurista, ou aventureiro para sua história festiva, romântica ou épica.
  • Eleven multilíngue: Seja uma voz pré-fabricada, uma voz clonada ou sua própria voz, você pode fazê-las falar todos os idiomas suportados pelo nosso modelo multilíngue.

Ampliando horizontes: nosso novo modelo multilíngue

Na ElevenLabs, nosso compromisso com a inovação levou ao lançamento de um novo modelo multilíngue. Isso permite que a mesma narrativa seja traduzida e vocalizada em até 28 idiomas. Para os editores, isso significa um alcance global sem precedentes, com histórias ressoando em diferentes culturas e regiões, tudo em uma voz consistente e unificada.

Idiomas suportados agora incluem: Inglês, Coreano, Holandês, Chinês, Turco, Sueco, Indonésio, Filipino, Japonês, Ucraniano, Grego, Tcheco, Finlandês, Romeno, Dinamarquês, Búlgaro, Malaio, Eslovaco, Croata, Árabe Clássico, Polonês, Alemão, Espanhol, Francês, Italiano, Hindi, Português e Tâmil.

Design de voz: criando narrativas únicas

Nossa ferramenta proprietária Voice Design oferece uma experiência transformadora para editores. Facilita a criação de vozes completamente únicas com base em parâmetros selecionados, como idade, gênero e sotaque. Cada voz gerada é única, garantindo que os editores possam escolher uma voz específica para se tornar sinônimo de sua marca ou publicação.

Eficiência através da clonagem de voz profissional

Professional Voice Cloning (PVC) tecnologia na ElevenLabs oferece outra camada de personalização. Ao clonar as vozes dos repórteres de uma publicação, podemos produzir histórias de áudio em seus tons únicos. Isso não apenas proporciona autenticidade, mas também reduz significativamente os custos e o tempo gasto em processos de gravação tradicionais. Além disso, nosso modelo multilíngue é compatível com a clonagem de voz profissional, garantindo que a voz de um repórter possa agora falar todos os idiomas suportados.

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatize locuções de vídeos, leituras de anúncios, podcasts e mais, com a sua própria voz

Ouça um episódio de podcast gerado com nossa ferramenta de clonagem de voz profissional:

 / 


Como os editores podem se beneficiar da clonagem de voz

Para editores, a clonagem de voz profissional (PVC) oferece inúmeras vantagens:

  1. Voz de marca distinta: Ao clonar uma voz única, os editores podem estabelecer uma marca auditiva reconhecível, diferenciando seu conteúdo.
  2. Consistência de conteúdo: A clonagem de voz garante um estilo vocal consistente em vários artigos e publicações sem precisar de diferentes dubladores.
  3. Eficiência: Precisa de uma revisão de locução? Em vez de regravar, basta gerar a narração necessária com a voz clonada, economizando tempo e mantendo a uniformidade.
  4. Engajamento aprimorado: Para um público global, uma voz clonada familiar aumenta a conexão e a confiança no conteúdo.

Quando combinada com a tecnologia Texto para Voz, os editores estão equipados com um conjunto de ferramentas de última geração para produzir conteúdo auditivo rico, variado e global. Adotar as capacidades da tecnologia de clonagem de voz profissional é um movimento progressivo para os editores, abrindo uma infinidade de oportunidades.

Conclusão

O futuro da publicação não está apenas na palavra escrita, mas em como essas palavras são transmitidas. Com ferramentas como Texto para Voz, os editores têm o potencial de revolucionar a entrega de conteúdo, garantindo acessibilidade, exclusividade e alcance global. Na ElevenLabs, estamos na vanguarda dessa transformação, oferecendo tecnologia que abre caminho para uma experiência auditiva mais rica e diversificada.

Atualização: a partir de janeiro de 2025, Projects agora se chama Studio e está disponível para todos os usuários gratuitos.

FAQ

Texto para Voz, ou TTS, transforma conteúdo escrito em narrativas faladas. A tecnologia usa algoritmos avançados para produzir fala que espelha entonações semelhantes às humanas.

Os editores podem converter instantaneamente seus artigos ou histórias em áudio de alta qualidade, aumentar o engajamento do usuário, economizar em custos de gravação e expandir seu alcance global com capacidades multilíngues.

Nosso novo modelo multilíngue pode vocalizar conteúdo em até 28 idiomas diferentes, proporcionando um alcance global expansivo para os editores.

Sim, a ferramenta Voice Design da ElevenLabs é projetada para gerar vozes completamente distintas com base em parâmetros específicos, garantindo que cada editor possa ter uma voz que se alinhe com a identidade de sua marca.

Na ElevenLabs, priorizamos considerações éticas. Nossa tecnologia de clonagem de voz profissional é projetada para respeitar e proteger identidades individuais. Garantimos o uso responsável, permitindo apenas a clonagem de vozes com o consentimento e autorização dos indivíduos envolvidos.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade