Apresentando o Eleven v3 (alpha)

Experimente o v3

Apresentando o Hackathon de IA Multimodal (23Labs)

Reunindo mentes criativas e tecnologias inovadoras em 14 e 15 de outubro

Introdução

Bem-vindo ao empolgante mundo da IA Multimodal! O Hackathon 23Labs, organizado por Cerebral Valley, Eleven Labs e Twelve Labs, acontecerá em 14 e 15 de outubro no Shack 15, localizado no histórico Ferry Building em San Francisco. Este evento visa reunir mentes criativas e tecnologias inovadoras para explorar o potencial da IA Multimodal, um campo emergente que combina voz, vídeo e outras modalidades para criar aplicações inovadoras.

Os participantes terão acesso à API da Eleven Labs, Twelve Labs, e outros parceiros (Weaviate, Baseten, Pika Labs, e Omneky), permitindo que construam ferramentas focadas na criatividade com suporte prático das equipes por trás dessas startups de ponta. Com mais de $10K em prêmios em dinheiro e créditos em jogo, este hackathon promete ser uma experiência inesquecível para todos os envolvidos.

Visão geral da ElevenLabs e Twelve Labs

ElevenLabs Logo for Blog

Fundada em 2022, ElevenLabs é uma empresa de pesquisa em tecnologia de voz que desenvolve software de texto para fala líder mundial para editores e criadores. A missão da empresa é tornar o conteúdo universalmente acessível.

Aqui estão os principais recursos do software desenvolvido pela ElevenLabs:

  1. Tecnologia de texto para fala usando vozes sintéticas pré-fabricadas
  2. Ferramentas profissionais de clonagem de voz
  3. A capacidade de criar novas vozes IA
  4. A capacidade de 'falar' texto em até 30 idiomas
  5. Ferramentas para gerar e editar áudio de longa duração
Twelve Labs logo with colorful circles and the text "Twelve Labs" on a dark background.

Fundada em 2021, Twelve Labs constrói uma plataforma de compreensão de vídeo que usa IA para alimentar muitas tarefas subsequentes, como busca em linguagem natural, classificação zero-shot e geração de texto a partir de vídeo. Essas capacidades são construídas sobre o modelo de base multimodal de última geração da plataforma para vídeos. A visão da empresa é ajudar desenvolvedores a criar programas que possam ver, ouvir e entender o mundo como nós, oferecendo a infraestrutura de compreensão de vídeo mais poderosa.

Aqui estão os principais recursos da plataforma Twelve Labs:

  1. Capturar contexto com index API: Indexe uma vez, faça tudo. Crie embeddings de vídeo contextuais para buscar, classificar e resumir conteúdo em segundos.
  2. Encontre qualquer coisa com search API: Use linguagem cotidiana para buscas rápidas e contextuais que localizam as cenas exatas de que você precisa.
  3. Categorize vídeos com classify API: Classifique e categorize conteúdo instantaneamente. Classifique conteúdo com qualquer taxonomia própria. Não é necessário treinamento.
  4. Gere texto com generate API: Gere texto sobre seus vídeos por meio de prompts. Peça ao modelo para escrever relatórios, obter resumos e criar capítulos - o que você precisar.

Avançando as fronteiras da IA Multimodal

Modelo de texto para fala da ElevenLabs

As equipes de pesquisa da ElevenLabs têm sido pioneiras em capacidades de texto para fala de ponta que se concentram em combinar abordagens inovadoras para sintetizar fala e alcançar uma entrega ultra-realista. O modelo da ElevenLabs é capaz de entender a relação entre palavras e ajustar a entrega com base no contexto; permitindo que nuances e emoções sejam transmitidas. Isso significa que as vozes IA não soam robóticas, mas humanas. Isso representa um avanço global para a tecnologia de texto para fala.

Os algoritmos tradicionais de geração de fala produziam enunciados com base em cada sentença. Isso é computacionalmente menos exigente, mas imediatamente soa robótico. Emoções e entonação muitas vezes precisam se estender e ressoar por várias sentenças para unir um determinado raciocínio. Tom e ritmo transmitem intenção, que é realmente o que faz a fala soar humana em primeiro lugar. Então, em vez de gerar cada enunciado separadamente, nosso modelo leva em conta o contexto ao redor, mantendo o fluxo e a prosódia apropriados em todo o material gerado. Essa profundidade emocional, juntamente com a qualidade de áudio primorosa, oferece aos usuários a ferramenta de narração mais genuína e envolvente disponível.

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Nossa tecnologia de texto para fala com IA oferece milhares de vozes de alta qualidade e naturais em mais de 70 idiomas. Se você está procurando uma solução gratuita de texto para fala ou um gerador de voz IA premium para projetos comerciais, nossas ferramentas e APIs TTS podem atender às suas necessidades

Modelo de linguagem multimodal da Twelve Labs

Quando você assiste a um filme, geralmente usa múltiplos sentidos para experimentá-lo. Por exemplo, você usa seus olhos para ver os atores e objetos na tela e seus ouvidos para ouvir o diálogo e os sons. Usando apenas um sentido, você perderia detalhes essenciais como linguagem corporal ou conversa. Isso é semelhante a como a maioria dos grandes modelos de linguagem opera - eles geralmente são treinados para entender apenas texto. No entanto, eles não podem integrar múltiplas formas de informação e entender o que está acontecendo em uma cena.

Quando um modelo de linguagem processa uma forma de informação, como um texto, ele gera uma representação numérica compacta que define o significado desse input específico. Essas representações numéricas são chamadas de embeddings unimodais e assumem a forma de vetores de valores reais em um espaço multidimensional. Eles permitem que computadores realizem várias tarefas subsequentes, como tradução, resposta a perguntas ou classificação.

Diagram showing a process flow with input, language model, text embeddings, and downstream tasks.

Em contraste, quando um modelo de linguagem multimodal processa um vídeo, ele gera um embedding multimodal que representa o contexto geral de todas as fontes de informação, como imagens, sons, fala ou texto exibido na tela, e como eles se relacionam entre si. Ao fazer isso, o modelo adquire uma compreensão abrangente do vídeo. Uma vez que os embeddings multimodais são criados, eles são usados para várias tarefas subsequentes, como resposta a perguntas visuais, classificação ou análise de sentimento.

Diagram of a multimodal language model processing video input with visual, audio, and text embeddings to perform downstream tasks.

A Twelve Labs desenvolveu uma tecnologia de compreensão de vídeo multimodal que cria embeddings multimodais para seus vídeos. Esses embeddings são altamente eficientes em termos de armazenamento e requisitos computacionais. Eles contêm todo o contexto de um vídeo e permitem a execução rápida e escalável de tarefas sem armazenar o vídeo inteiro.

O modelo foi treinado em uma vasta quantidade de dados de vídeo, e ele pode reconhecer entidades, ações, padrões, movimentos, objetos, cenas e outros elementos presentes em vídeos. Ao integrar informações de diferentes modalidades, o modelo pode ser usado para várias tarefas subsequentes, como busca usando consultas em linguagem natural, realizar classificação zero-shot e gerar resumos de texto com base no conteúdo do vídeo.

Fala e vídeo aceleram a IA Multimodal

IA Multimodal é uma direção de pesquisa que se concentra em entender e aproveitar múltiplas modalidades para construir modelos de IA mais abrangentes e precisos. Avanços recentes em modelos de base, como grandes modelos de linguagem pré-treinados, permitiram que pesquisadores enfrentassem problemas mais complexos e sofisticados combinando modalidades. Esses modelos são capazes de aprendizado de representação multimodal para uma ampla gama de modalidades, incluindo imagem, texto, fala e vídeo. Como resultado, a IA Multimodal está sendo usada para enfrentar uma ampla gama de tarefas, desde resposta a perguntas visuais e geração de texto para imagem até compreensão de vídeo e tradução de texto para fala.

Quando combinadas, as tecnologias da ElevenLabs e Twelve Labs podem elevar a IA Multimodal ao mainstream, oferecendo uma compreensão mais abrangente da comunicação e interação humana. Ao aproveitar o poder das modalidades de fala e vídeo, os desenvolvedores podem criar aplicações inovadoras que ultrapassam os limites do que é possível em IA, transformando, em última análise, a maneira como interagimos com a tecnologia e o mundo digital.

Ideias de aplicações de IA para o Hackathon

Durante o Hackathon 23Labs, os participantes terão a oportunidade de construir aplicações de IA inovadoras que aproveitam as APIs da ElevenLabs e Twelve Labs. Aqui estão algumas ideias empolgantes para inspiração:

  1. Resumo de vídeo com locução: Crie uma solução que gere automaticamente resumos concisos de vídeos longos (usando a Generate API da Twelve Labs) e adicione uma locução (usando o gerador de voz com IA da ElevenLabs). Isso pode ser útil para atualizações de notícias, vídeos educacionais e apresentações de conferências - economizando tempo para os espectadores e melhorando a acessibilidade.
  2. Publicidade em vídeo inteligente: Desenvolva uma plataforma de publicidade baseada em IA que analise o conteúdo de anúncios em vídeo (usando a Classify API da Twelve Labs), obtenha temas comuns de anúncios de alto ROI (usando a Generate API da Twelve Labs) e gere anúncios de áudio direcionados (aproveitando a tecnologia de síntese de voz da ElevenLabs). Isso pode ajudar os anunciantes a alcançar seu público-alvo de forma mais eficaz e melhorar a experiência geral do usuário.
  3. Tradução de vídeo multilíngue: Construa um sistema que traduza conteúdo de vídeo para vários idiomas. Combine a Generate API da Twelve Labs com o suporte de áudio multilíngue da ElevenLabs para fornecer legendas traduzidas e locuções sincronizadas, permitindo que os usuários consumam conteúdo de vídeo em seu idioma preferido. Isso pode ser benéfico para conferências internacionais, cursos online e comunicação global.
  4. Moderação de conteúdo de vídeo com avisos de áudio: Crie uma solução baseada em IA que detecte e filtre automaticamente conteúdo inapropriado ou sensível em vídeos. Use a Classify API da Twelve Labs para identificar conteúdo inapropriado ou ofensivo em vídeos. Em seguida, use a tecnologia de síntese de voz da ElevenLabs para fornecer avisos de áudio para esse conteúdo. Isso pode ajudar a garantir uma experiência de visualização mais segura e inclusiva para os usuários.
  5. Assistente de aprendizado de idiomas por vídeo: Desenvolva uma ferramenta interativa de aprendizado de idiomas que use conteúdo de vídeo para ajudar os usuários a melhorar suas habilidades linguísticas. Use a Search API da Twelve Labs para identificar e extrair fala de vídeos. Em seguida, use o suporte de áudio multilíngue da ElevenLabs para gerar guias de pronúncia, lições de vocabulário ou exercícios de escuta. Isso pode tornar o aprendizado de idiomas mais envolvente e eficaz.

Recursos para participantes do Hackathon

Os participantes podem consultar a documentação da API, tutoriais e postagens de blog da ElevenLabs e Twelve Labs abaixo para se preparar para o hackathon.

Da ElevenLabs

Da Twelve Labs

Conclusão

O Hackathon 23Labs oferece uma oportunidade única para desenvolvedores, criadores e entusiastas de IA mergulharem no mundo da IA Multimodal e criarem soluções inovadoras que ultrapassam os limites do que é possível. Combinando a expertise da Eleven Labs e Twelve Labs, os participantes terão acesso a tecnologias de ponta em IA de voz e vídeo, permitindo que construam aplicações que realmente transformem a maneira como interagimos com o conteúdo digital.

Não perca a chance de fazer parte deste evento inovador e explorar as oportunidades empolgantes que estão por vir no campo da IA Multimodal. Inscreva-se agora e junte-se a nós no Hackathon 23Labs para transformar suas ideias em realidade!


Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade