Introducerar den multimodala AI Hackathon (23Labs)

9 okt. 2023 • 8 minuter lästid

Samlar kreativa sinnen och innovativ teknik den 14-15 oktober

Introduktion

Välkommen till den spännande världen av Multimodal AI! 23Labs Hackathon, som arrangeras av Cerebral Valley, Eleven Labs och Twelve Labs, kommer att äga rum den 14 och 15 oktober på Shack 15, beläget i den historiska Ferry Building i San Francisco. Detta evenemang syftar till att samla kreativa sinnen och innovativ teknik för att utforska potentialen hos Multimodal AI, ett snabbt växande område som kombinerar röst, video och andra modaliteter för att skapa banbrytande applikationer.

Deltagare kommer att få API-åtkomst till Eleven Labs, Twelve Labs, och andra partners (Weaviate, Baseten, Pika Labs, och Omneky), vilket ger dem möjlighet att bygga kreativitetsfokuserade verktyg med praktiskt stöd från teamen bakom dessa banbrytande startups. Med över $10K i kontantpriser och krediter att vinna, lovar denna hackathon att bli en oförglömlig upplevelse för alla inblandade.

Översikt över ElevenLabs och Twelve Labs

Grundat 2022, ElevenLabs är ett röstteknologiforskningsföretag som utvecklar världsledande text-to-speech-programvara för utgivare och skapare. Företagets uppdrag är att göra innehåll universellt tillgängligt.

Här är de viktigaste funktionerna i programvaran som utvecklats av ElevenLabs:

Text-to-speech-teknik med förgjorda syntetiska röster
Professionella verktyg för röstkloning
Möjlighet att designa nya AI-röster
Möjlighet att 'tala' text på upp till 30 språk
Verktyg för att generera och redigera långformigt ljud

Grundat 2021, Twelve Labs bygger en videoförståelseplattform som använder AI för att driva många nedströmsuppgifter, såsom naturligt språk-sökning, zero-shot-klassificering och textgenerering från video. Dessa funktioner bygger på plattformens toppmoderna multimodala grundmodell för videor. Företagets vision är att hjälpa utvecklare att bygga program som kan se, lyssna och förstå världen som vi gör genom att ge dem den mest kraftfulla videoförståelseinfrastrukturen.

Här är de viktigaste funktionerna i Twelve Labs-plattformen:

Fånga kontext med index-API: Indexera en gång, gör allt. Skapa kontextuella videoembeddings för att söka, klassificera och sammanfatta innehåll på sekunder.
Hitta allt med sök-API: Använd vardagligt språk för blixtsnabba, kontextmedvetna sökningar som hittar exakt de scener du behöver.
Kategorisera videor med klassificerings-API: Sortera och kategorisera innehåll direkt. Klassificera innehåll med valfri egen taxonomi. Ingen träning krävs.
Generera text med genererings-API: Generera text om dina videor genom att ge kommandon. Be modellen skriva rapporter, få sammanfattningar och skapa kapitel - vad du än behöver.

Driva gränserna för multimodal AI

ElevenLabs’ text-to-speech-modell

ElevenLabs forskarteam har banat väg för banbrytande text-to-speech-funktioner som fokuserar på att kombinera nya metoder för att syntetisera tal för att uppnå ultrarealistisk leverans. ElevenLabs-modellen kan förstå relationen mellan ord och justera leveransen baserat på kontext; vilket möjliggör att nyanser och känslor kan förmedlas. Detta innebär att AI-rösterna inte låter robotiska, utan mänskliga. Detta representerar ett globalt genombrott för text-to-speech-teknik.

Traditionella talgenereringsalgoritmer producerade yttranden på en mening-för-mening-basis. Detta är mindre krävande beräkningsmässigt men uppfattas omedelbart som robotiskt. Känslor och intonation behöver ofta sträcka sig och resonera över flera meningar för att binda ihop en viss tankegång. Ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Så istället för att generera varje yttrande separat, tar vår modell hänsyn till den omgivande kontexten och bibehåller lämpligt flöde och prosodi över hela det genererade materialet. Detta känslomässiga djup, i kombination med förstklassig ljudkvalitet, ger användare det mest genuina och övertygande berättarverktyget som finns.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Skapa mänskliga röster med vårt Text to Speech (TTS)-system, byggt för högkvalitativ berättarröst, spel, video och tillgänglighet. Uttrycksfulla röster, flerspråkigt stöd och API-integration gör det enkelt att skala från personliga projekt till företagsarbetsflöden.

Twelve Labs’ multimodala språkmodell

När du tittar på en film använder du vanligtvis flera sinnen för att uppleva den. Till exempel använder du dina ögon för att se skådespelarna och objekten på skärmen och dina öron för att höra dialogen och ljuden. Genom att använda bara ett sinne skulle du missa viktiga detaljer som kroppsspråk eller konversation. Detta liknar hur de flesta stora språkmodeller fungerar - de är vanligtvis tränade för att förstå endast text. Men de kan inte integrera flera former av information och förstå vad som händer i en scen.

När en språkmodell bearbetar en form av information, såsom en text, genererar den en kompakt numerisk representation som definierar betydelsen av den specifika inmatningen. Dessa numeriska representationer kallas unimodala embeddings och tar formen av reella vektorer i ett flerdimensionellt utrymme. De tillåter datorer att utföra olika nedströmsuppgifter såsom översättning, frågesvar eller klassificering.

Diagram showing a process flow with input, language model, text embeddings, and downstream tasks.

I kontrast, när en multimodal språkmodell bearbetar en video, genererar den en multimodal inbäddning som representerar den övergripande kontexten från alla informationskällor, såsom bilder, ljud, tal eller text som visas på skärmen, och hur de relaterar till varandra. Genom att göra detta får modellen en omfattande förståelse av videon. När multimodala embeddings har skapats används de för olika nedströmsuppgifter såsom visuella frågesvar, klassificering eller sentimentanalys.

Diagram of a multimodal language model processing video input with visual, audio, and text embeddings to perform downstream tasks.

Twelve Labs har utvecklat en multimodal videoförståelseteknik som skapar multimodala embeddings för dina videor. Dessa embeddings är mycket effektiva när det gäller lagring och beräkningskrav. De innehåller all kontext av en video och möjliggör snabb och skalbar uppgiftsutförande utan att lagra hela videon.

Modellen har tränats på en stor mängd videodata, och den kan känna igen entiteter, handlingar, mönster, rörelser, objekt, scener och andra element som finns i videor. Genom att integrera information från olika modaliteter kan modellen användas för flera nedströmsuppgifter, såsom sökning med naturliga språkfrågor, utföra zero-shot-klassificering och generera textsammanfattningar baserat på videoinnehållet.

Tal och video accelererar multimodal AI

Multimodal AI är en forskningsinriktning som fokuserar på att förstå och utnyttja flera modaliteter för att bygga mer omfattande och exakta AI-modeller. Nyliga framsteg inom grundmodeller, såsom stora förtränade språkmodeller, har gjort det möjligt för forskare att ta itu med mer komplexa och sofistikerade problem genom att kombinera modaliteter. Dessa modeller är kapabla till multimodal representationsinlärning för en rad olika modaliteter, inklusive bild, text, tal och video. Som ett resultat används Multimodal AI för att ta itu med en mängd olika uppgifter, från visuella frågesvar och text-till-bild-generering till videoförståelse och text-till-tal-översättning.

När teknologierna från ElevenLabs och Twelve Labs kombineras kan de lyfta Multimodal AI till mainstream, och erbjuda en mer omfattande förståelse av mänsklig kommunikation och interaktion. Genom att utnyttja kraften hos både tal- och videomodaliteter kan utvecklare skapa innovativa applikationer som tänjer på gränserna för vad som är möjligt inom AI, och i slutändan förändra hur vi interagerar med teknik och den digitala världen.

AI-applikationsidéer för Hackathon

Under 23Labs Hackathon kommer deltagarna att ha möjlighet att bygga innovativa AI-applikationer som utnyttjar API:erna från både ElevenLabs och Twelve Labs. Här är några spännande idéer för inspiration:

Videosammanfattning med voice-over: Skapa en lösning som automatiskt genererar kortfattade sammanfattningar av långa videor (med Twelve Labs’ Generate API) och lägger till en voice-over (med ElevenLabs' AI-drivna röstgenerator). Detta kan vara användbart för nyhetsuppdateringar, utbildningsvideor och konferenspresentationer - sparar tid för tittare och ökar tillgängligheten.
Smart videoannonsering: Utveckla en AI-baserad annonseringsplattform som analyserar videoreklamins innehåll (med Twelve Labs' Classify API), får vanliga teman för hög-ROI-annonser (med Twelve Labs’ Generate API), och genererar riktade ljudannonser (genom att utnyttja ElevenLabs' röstsyntesteknik). Detta kan hjälpa annonsörer att nå sin målgrupp mer effektivt och förbättra den övergripande användarupplevelsen.
Flerspråkig videöversättning: Bygg ett system som översätter videoinnehåll till flera språk. Kombinera Twelve Labs' Generate API med ElevenLabs' flerspråkiga ljudstöd för att tillhandahålla synkroniserade översatta undertexter och voice-overs, vilket gör det möjligt för användare att konsumera videoinnehåll på sitt föredragna språk. Detta kan vara fördelaktigt för internationella konferenser, onlinekurser och global kommunikation.
Videoinnehållsmoderering med ljudvarningar: Skapa en AI-driven lösning som automatiskt upptäcker och filtrerar olämpligt eller känsligt innehåll i videor. Använd Twelve Labs' Classify API för att identifiera olämpligt eller stötande innehåll i videor. Använd sedan ElevenLabs' röstsyntesteknik för att tillhandahålla ljudvarningar för sådant innehåll. Detta kan hjälpa till att säkerställa en säkrare och mer inkluderande tittarupplevelse för användare.
Videobaserad språkinlärningsassistent: Utveckla ett interaktivt språkinlärningsverktyg som använder videoinnehåll för att hjälpa användare att förbättra sina språkkunskaper. Använd Twelve Labs' Search API för att identifiera och extrahera tal från videor. Använd sedan ElevenLabs' flerspråkiga ljudstöd för att generera uttalsguider, ordförrådslektioner eller lyssningsövningar. Detta kan göra språkinlärning mer engagerande och effektiv.

Resurser för Hackathon-deltagare

Deltagare kan hänvisa till API-dokumentation, handledningar och blogginlägg från ElevenLabs och Twelve Labs nedan för att förbereda sig för hackathon.

Från ElevenLabs

Från Twelve Labs

Slutsats

23Labs Hackathon erbjuder en unik möjlighet för utvecklare, skapare och AI-entusiaster att dyka in i världen av Multimodal AI och skapa innovativa lösningar som tänjer på gränserna för vad som är möjligt. Genom att kombinera expertisen från Eleven Labs och Twelve Labs kommer deltagarna att ha tillgång till toppmodern teknik inom röst och video AI, vilket gör det möjligt för dem att bygga applikationer som verkligen kan förändra hur vi interagerar med digitalt innehåll.

Missa inte din chans att vara en del av detta banbrytande evenemang och utforska de spännande möjligheter som ligger framför oss inom området Multimodal AI. Registrera dig nu och gå med oss på 23Labs Hackathon för att förvandla dina idéer till verklighet!

Utforska artiklar av ElevenLabs-teamet

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in

Drivs av ElevenLabs Agenter