
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
Presenterar Eleven v3 Alpha
Prova v3Samlar kreativa sinnen och innovativ teknik den 14-15 oktober
Välkommen till den spännande världen av Multimodal AI! 23Labs Hackathon, som arrangeras av Cerebral Valley, Eleven Labs och Twelve Labs, kommer att äga rum den 14 och 15 oktober på Shack 15, beläget i den historiska Ferry Building i San Francisco. Detta evenemang syftar till att samla kreativa sinnen och innovativ teknik för att utforska potentialen hos Multimodal AI, ett snabbt växande område som kombinerar röst, video och andra modaliteter för att skapa banbrytande applikationer.
Deltagare kommer att få API-åtkomst till Eleven Labs, Twelve Labs, och andra partners (Weaviate, Baseten, Pika Labs, och Omneky), vilket ger dem möjlighet att bygga kreativitetsfokuserade verktyg med praktiskt stöd från teamen bakom dessa banbrytande startups. Med över $10K i kontantpriser och krediter att vinna, lovar denna hackathon att bli en oförglömlig upplevelse för alla inblandade.
Grundat 2022, ElevenLabs är ett röstteknologiforskningsföretag som utvecklar världsledande text-to-speech-programvara för utgivare och skapare. Företagets uppdrag är att göra innehåll universellt tillgängligt.
Här är de viktigaste funktionerna i programvaran som utvecklats av ElevenLabs:
Grundat 2021, Twelve Labs bygger en videoförståelseplattform som använder AI för att driva många nedströmsuppgifter, såsom naturligt språk-sökning, zero-shot-klassificering och textgenerering från video. Dessa funktioner bygger på plattformens toppmoderna multimodala grundmodell för videor. Företagets vision är att hjälpa utvecklare att bygga program som kan se, lyssna och förstå världen som vi gör genom att ge dem den mest kraftfulla videoförståelseinfrastrukturen.
Här är de viktigaste funktionerna i Twelve Labs-plattformen:
ElevenLabs forskarteam har banat väg för banbrytande text-to-speech-funktioner som fokuserar på att kombinera nya metoder för att syntetisera tal för att uppnå ultrarealistisk leverans. ElevenLabs-modellen kan förstå relationen mellan ord och justera leveransen baserat på kontext; vilket möjliggör att nyanser och känslor kan förmedlas. Detta innebär att AI-rösterna inte låter robotiska, utan mänskliga. Detta representerar ett globalt genombrott för text-to-speech-teknik.
Traditionella talgenereringsalgoritmer producerade yttranden på en mening-för-mening-basis. Detta är mindre krävande beräkningsmässigt men uppfattas omedelbart som robotiskt. Känslor och intonation behöver ofta sträcka sig och resonera över flera meningar för att binda ihop en viss tankegång. Ton och tempo förmedlar avsikt, vilket verkligen är det som får tal att låta mänskligt från början. Så istället för att generera varje yttrande separat, tar vår modell hänsyn till den omgivande kontexten och bibehåller lämpligt flöde och prosodi över hela det genererade materialet. Detta känslomässiga djup, i kombination med förstklassig ljudkvalitet, ger användare det mest genuina och övertygande berättarverktyget som finns.
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
När du tittar på en film använder du vanligtvis flera sinnen för att uppleva den. Till exempel använder du dina ögon för att se skådespelarna och objekten på skärmen och dina öron för att höra dialogen och ljuden. Genom att använda bara ett sinne skulle du missa viktiga detaljer som kroppsspråk eller konversation. Detta liknar hur de flesta stora språkmodeller fungerar - de är vanligtvis tränade för att förstå endast text. Men de kan inte integrera flera former av information och förstå vad som händer i en scen.
När en språkmodell bearbetar en form av information, såsom en text, genererar den en kompakt numerisk representation som definierar betydelsen av den specifika inmatningen. Dessa numeriska representationer kallas unimodala embeddings och tar formen av reella vektorer i ett flerdimensionellt utrymme. De tillåter datorer att utföra olika nedströmsuppgifter såsom översättning, frågesvar eller klassificering.
I kontrast, när en multimodal språkmodell bearbetar en video, genererar den en multimodal embedding som representerar den övergripande kontexten från alla informationskällor, såsom bilder, ljud, tal eller text som visas på skärmen, och hur de relaterar till varandra. Genom att göra detta får modellen en omfattande förståelse av videon. När multimodala embeddings har skapats används de för olika nedströmsuppgifter såsom visuella frågesvar, klassificering eller sentimentanalys.
Twelve Labs har utvecklat en multimodal videoförståelseteknik som skapar multimodala embeddings för dina videor. Dessa embeddings är mycket effektiva när det gäller lagring och beräkningskrav. De innehåller all kontext av en video och möjliggör snabb och skalbar uppgiftsutförande utan att lagra hela videon.
Modellen har tränats på en stor mängd videodata, och den kan känna igen entiteter, handlingar, mönster, rörelser, objekt, scener och andra element som finns i videor. Genom att integrera information från olika modaliteter kan modellen användas för flera nedströmsuppgifter, såsom sökning med naturliga språkfrågor, utföra zero-shot-klassificering och generera textsammanfattningar baserat på videoinnehållet.
Multimodal AI är en forskningsinriktning som fokuserar på att förstå och utnyttja flera modaliteter för att bygga mer omfattande och exakta AI-modeller. Nyliga framsteg inom grundmodeller, såsom stora förtränade språkmodeller, har gjort det möjligt för forskare att ta itu med mer komplexa och sofistikerade problem genom att kombinera modaliteter. Dessa modeller är kapabla till multimodal representationsinlärning för en rad olika modaliteter, inklusive bild, text, tal och video. Som ett resultat används Multimodal AI för att ta itu med en mängd olika uppgifter, från visuella frågesvar och text-till-bild-generering till videoförståelse och text-till-tal-översättning.
När teknologierna från ElevenLabs och Twelve Labs kombineras kan de lyfta Multimodal AI till mainstream, och erbjuda en mer omfattande förståelse av mänsklig kommunikation och interaktion. Genom att utnyttja kraften hos både tal- och videomodaliteter kan utvecklare skapa innovativa applikationer som tänjer på gränserna för vad som är möjligt inom AI, och i slutändan förändra hur vi interagerar med teknik och den digitala världen.
Under 23Labs Hackathon kommer deltagarna att ha möjlighet att bygga innovativa AI-applikationer som utnyttjar API:erna från både ElevenLabs och Twelve Labs. Här är några spännande idéer för inspiration:
Deltagare kan hänvisa till API-dokumentation, handledningar och blogginlägg från ElevenLabs och Twelve Labs nedan för att förbereda sig för hackathon.
Från ElevenLabs
Från Twelve Labs
23Labs Hackathon erbjuder en unik möjlighet för utvecklare, skapare och AI-entusiaster att dyka in i världen av Multimodal AI och skapa innovativa lösningar som tänjer på gränserna för vad som är möjligt. Genom att kombinera expertisen från Eleven Labs och Twelve Labs kommer deltagarna att ha tillgång till toppmodern teknik inom röst och video AI, vilket gör det möjligt för dem att bygga applikationer som verkligen kan förändra hur vi interagerar med digitalt innehåll.
Missa inte din chans att vara en del av detta banbrytande evenemang och utforska de spännande möjligheter som ligger framför oss inom området Multimodal AI. Registrera dig nu och gå med oss på 23Labs Hackathon för att förvandla dina idéer till verklighet!
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.