.webp&w=3840&q=80)
Construindo o Vibe Draw: combinando ElevenLabs com FLUX Kontext para criação de imagens por voz
- Categoria
- Desenvolvedor
- Data
Estamos lançando redação automática de entidades, transcrição Indic-Inglês aprimorada, um novo modo Sem Verbatim e expansão do limite de termos-chave para até 1.000 termos.
Essas melhorias dão aos desenvolvedores mais controle sobre privacidade, precisão multilíngue, qualidade das transcrições e precisão em áreas específicas.
O Scribe v2 agora consegue detectar e ocultar automaticamente entidades sensíveis nas transcrições – incluindo nomes, números de cartão de crédito, números de CPF e outras informações pessoais identificáveis.
A redação acontece durante a transcrição. Os dados sensíveis são removidos antes de chegar ao seu armazenamento ou a outros sistemas.
Isso é especialmente importante para equipes de saúde, finanças e atendimento ao cliente, onde é preciso garantir que dados pessoais sejam tratados antes de armazenar ou compartilhar transcrições.
Na Índia, é comum misturar inglês com hindi, telugu, canarês e outros idiomas indianos. Muitos sistemas de transcrição transliteram palavras em inglês para o alfabeto desses idiomas, gerando transcrições que não refletem como as pessoas realmente falam.
O Scribe v2 transcreve palavras em inglês no próprio inglês, independentemente do idioma ao redor. Isso funciona automaticamente, sem precisar configurar o idioma. Seja enviando inglês, hindi ou nenhum código de idioma, as palavras em inglês permanecem no alfabeto latino.
Isso vale para todos os idiomas indianos, não só para hindi-inglês. Se alguém alternar entre telugu e inglês ou canarês e inglês, as partes em inglês são transcritas corretamente.
Estamos lançando o modo Sem Verbatim, uma configuração de transcrição que remove automaticamente palavras de preenchimento como "é", "ah", além de repetições e gagueiras.
O resultado é uma transcrição limpa e fácil de ler, sem precisar editar manualmente ou fazer ajustes depois.
O modo Sem Verbatim é ideal para atas de reuniões, legendas e qualquer fluxo de trabalho em que o objetivo seja um texto finalizado, e não o registro bruto de cada som.
Agora é possível usar até 1.000 palavras e frases como termos-chave por transcrição, contra o limite anterior de 100.
Isso dá mais flexibilidade para equipes que trabalham com vocabulários técnicos extensos, catálogos de produtos ou termos específicos de uma área, ajudando o modelo a transcrever com mais precisão.
A sugestão de termos-chave continua levando o contexto em conta. O modelo usa o áudio ao redor para decidir se um termo-chave se aplica, em vez de inserir termos automaticamente. Com 1.000 termos, isso representa 10 vezes a capacidade anterior.
Observação: solicitações com mais de 100 termos-chave têm unidade mínima de cobrança de 20 segundos.
Essas novidades já estão disponíveis na API e na interface do Scribe v2.
Leia a documentação:
https://elevenlabs.io/docs/cookbooks/speech-to-text/quickstart
Experimente no app:
https://elevenlabs.io/app/speech-to-text
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)