マルチモーダルAIハッカソン（23Labs）のご紹介

2023年10月9日 • 3 分で読めます

10月14日と15日にクリエイティブな頭脳と革新的な技術を結集

イントロダクション

マルチモーダルAIのエキサイティングな世界へようこそ！23Labsハッカソンは、Cerebral Valley、Eleven Labs、Twelve Labsが主催し、10月14日と15日にShack 15で開催されます。場所は歴史あるフェリービルディング、サンフランシスコです。このイベントは、創造的な頭脳と革新的な技術を結集し、マルチモーダルAIの可能性を探ることを目的としています。音声、ビデオ、その他のモダリティを組み合わせて画期的なアプリケーションを生み出す急成長中の分野です。

参加者は、Eleven Labs、Twelve Labs、および他のパートナー（Weaviate、Baseten、Pika Labs、Omneky）のAPIアクセスが提供され、これらの最先端スタートアップのチームからの実践的なサポートを受けながら、創造性に焦点を当てたツールを構築できます。賞金とクレジットで合計$10K以上が用意されており、このハッカソンは参加者全員にとって忘れられない体験となるでしょう。

ElevenLabsとTwelve Labsの概要

2022年に設立されたElevenLabsは、出版社やクリエイター向けに世界トップクラスのテキスト読み上げソフトウェアを開発する音声技術研究会社です。会社の使命は、コンテンツを普遍的にアクセス可能にすることです。

ElevenLabsが開発したソフトウェアの主な機能は以下の通りです：

既成の合成音声を使用したテキスト読み上げ技術
プロフェッショナルボイスクローンツール
新しいAI音声をデザインする機能
最大30言語でテキストを「話す」能力
長編オーディオを生成・編集するツール

2021年に設立されたTwelve Labsは、自然言語検索、ゼロショット分類、ビデオからのテキスト生成など、多くの下流タスクを支えるAIを使用したビデオ理解プラットフォームを構築しています。これらの機能は、ビデオ用の最先端のマルチモーダル基盤モデルの上に構築されています。会社のビジョンは、デベロッパーが私たちと同じように世界を見て、聞いて、理解できるプログラムを構築するために、最も強力なビデオ理解インフラを提供することです。

Twelve Labsプラットフォームの主な機能は以下の通りです：

インデックスAPIでコンテキストをキャプチャ：一度インデックスを作成すれば、すべてが可能。コンテキストビデオ埋め込みを作成し、数秒でコンテンツを検索、分類、要約。
検索APIで何でも見つける：日常の言葉を使って、必要なシーンを正確に特定する高速でコンテキストに敏感な検索。
分類APIでビデオを分類：コンテンツを瞬時にソートし分類。独自の分類法でコンテンツを分類。トレーニング不要。
生成APIでテキストを生成：プロンプトを使ってビデオについてのテキストを生成。レポートを書かせたり、要約を取得したり、章を作成したり、必要なものを。

マルチモーダルAIの最前線を押し進める

ElevenLabsのテキスト読み上げモデル

ElevenLabsの研究チームは、音声合成の新しいアプローチを組み合わせて、超リアルな表現を実現する最先端のテキスト読み上げ機能を開発しました。ElevenLabsモデルは、単語間の関係を理解し、コンテキストに基づいて表現を調整することができ、ニュアンスや感情を伝えることができます。これにより、AI音声はロボットのように聞こえず、人間のように聞こえます。これはテキスト読み上げ技術における世界的なブレークスルーです。

従来の音声生成アルゴリズムは、文ごとに発話を生成していました。これは計算負荷が少ないですが、すぐにロボットのように聞こえます。感情やイントネーションは、特定の思考の流れを結びつけるために、複数の文にわたって伸びたり共鳴したりする必要があります。トーンとペースは意図を伝え、これが音声を人間らしく聞こえさせる要素です。したがって、各発話を個別に生成するのではなく、モデルは周囲のコンテキストを考慮し、生成された全体の素材にわたって適切な流れとプロソディを維持します。この感情的な深みと優れた音質が組み合わさり、ユーザーに最も本物で魅力的なナレーションツールを提供します。

テキスト読み上げ

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

高品質なナレーション、ゲーム、ビデオ、アクセシビリティのために構築されたテキスト読み上げ(TTS)システムで、人間らしい声を作成。表現力豊かな声、多言語対応、API統合により、個人プロジェクトから企業のワークフローまで簡単に拡張可能。

Twelve Labsのマルチモーダル言語モデル

映画を見るとき、通常は複数の感覚を使って体験します。例えば、画面上の俳優や物を目で見て、対話や音を耳で聞きます。1つの感覚だけを使うと、ボディランゲージや会話のような重要な詳細を見逃します。これはほとんどの大規模言語モデルが動作する方法に似ています。通常、テキストのみを理解するように訓練されていますが、複数の情報形式を統合してシーンで何が起こっているかを理解することはできません。

言語モデルがテキストのような情報形式を処理するとき、その特定の入力の意味を定義するコンパクトな数値表現を生成します。これらの数値表現はユニモーダル埋め込みと呼ばれ、多次元空間の実数ベクトルの形を取ります。これにより、コンピュータは翻訳、質問応答、分類などのさまざまな下流タスクを実行できます。

Diagram showing a process flow with input, language model, text embeddings, and downstream tasks.

対照的に、マルチモーダル言語モデルがビデオを処理するとき、マルチモーダル埋め込みを生成し、画像、音、音声、画面上のテキストなど、すべての情報源からの全体的なコンテキストを表し、それらがどのように関連しているかを示します。これにより、モデルはビデオの包括的な理解を得ます。マルチモーダル埋め込みが作成されると、視覚的質問応答、分類、感情分析などのさまざまな下流タスクに使用されます。

Diagram of a multimodal language model processing video input with visual, audio, and text embeddings to perform downstream tasks.

Twelve Labsは、ビデオのためのマルチモーダル埋め込みを作成するマルチモーダルビデオ理解技術を開発しました。これらの埋め込みは、ストレージと計算要件の面で非常に効率的です。ビデオのすべてのコンテキストを含み、ビデオ全体を保存せずに迅速かつスケーラブルなタスク実行を可能にします。

モデルは膨大な量のビデオデータで訓練されており、ビデオに存在するエンティティ、アクション、パターン、動き、オブジェクト、シーン、その他の要素を認識できます。異なるモダリティからの情報を統合することで、自然言語クエリを使用した検索、ゼロショット分類、ビデオコンテンツに基づくテキスト要約の生成など、いくつかの下流タスクに使用できます。

音声とビデオがマルチモーダルAIを加速

マルチモーダルAIは、複数のモダリティを理解し活用して、より包括的で正確なAIモデルを構築することに焦点を当てた研究方向です。最近の基盤モデルの進歩により、大規模な事前学習済み言語モデルなど、モダリティを組み合わせてより複雑で洗練された問題に取り組むことが可能になりました。これらのモデルは、画像、テキスト、音声、ビデオを含む幅広いモダリティのためのマルチモーダル表現学習が可能です。その結果、マルチモーダルAIは、視覚的質問応答やテキストから画像生成、ビデオ理解、テキスト読み上げ翻訳など、幅広いタスクに使用されています。

ElevenLabsとTwelve Labsの技術を組み合わせることで、マルチモーダルAIを主流に引き上げ、人間のコミュニケーションとインタラクションのより包括的な理解を提供できます。音声とビデオの両方のモダリティの力を活用することで、デベロッパーはAIの可能性を押し広げる革新的なアプリケーションを作成し、最終的にはテクノロジーとデジタル世界とのインタラクションの方法を変革します。

ハッカソンのためのAIアプリケーションアイデア

23Labsハッカソンでは、参加者はElevenLabsとTwelve LabsのAPIを活用して革新的なAIアプリケーションを構築する機会があります。以下はインスピレーションを得るためのエキサイティングなアイデアです：

ボイスオーバー付きビデオ要約：長いビデオの要約を自動生成し（Twelve LabsのGenerate APIを使用）、ボイスオーバーを追加するソリューションを作成します（ElevenLabsのAI音声ジェネレーターを使用）。これはニュースの更新、教育ビデオ、会議のプレゼンテーションに役立ち、視聴者の時間を節約し、アクセシビリティを向上させます。
スマートビデオ広告：AIベースの広告プラットフォームを開発し、ビデオ広告のコンテンツを分析（Twelve LabsのClassify APIを使用）、高ROI広告の共通テーマを取得（Twelve LabsのGenerate APIを使用）、ターゲットオーディオ広告を生成（ElevenLabsの音声合成技術を活用）します。これにより、広告主はターゲットオーディエンスに効果的にリーチし、全体的なユーザー体験を向上させることができます。
多言語ビデオ翻訳：ビデオコンテンツを複数の言語に翻訳するシステムを構築します。Twelve LabsのGenerate APIとElevenLabsの多言語オーディオサポートを組み合わせて、同期された翻訳字幕とボイスオーバーを提供し、ユーザーが好みの言語でビデオコンテンツを消費できるようにします。これは国際会議、オンラインコース、グローバルコミュニケーションに役立ちます。
オーディオ警告付きビデオコンテンツモデレーション：AIを活用して、ビデオ内の不適切またはセンシティブなコンテンツを自動的に検出しフィルタリングするソリューションを作成します。Twelve LabsのClassify APIを使用して不適切または攻撃的なコンテンツを特定し、ElevenLabsの音声合成技術を使用してそのようなコンテンツに対するオーディオ警告を提供します。これにより、ユーザーにとってより安全で包括的な視聴体験を確保できます。
ビデオ言語学習アシスタント：ビデオコンテンツを使用してユーザーの言語スキルを向上させるインタラクティブな言語学習ツールを開発します。Twelve LabsのSearch APIを使用してビデオから音声を特定し抽出し、ElevenLabsの多言語オーディオサポートを使用して発音ガイド、語彙レッスン、リスニング練習を生成します。これにより、言語学習がより魅力的で効果的になります。

ハッカソン参加者のためのリソース

参加者は、以下のElevenLabsとTwelve LabsのAPIドキュメント、チュートリアル、ブログ投稿を参照してハッカソンの準備をすることができます。

ElevenLabsから

Twelve Labsから

結論

23Labsハッカソンは、デベロッパー、クリエイター、AI愛好家にとって、マルチモーダルAIの世界に飛び込み、可能性の限界を押し広げる革新的なソリューションを作成するユニークな機会を提供します。Eleven LabsとTwelve Labsの専門知識を組み合わせることで、参加者は音声とビデオAIの最先端技術にアクセスでき、デジタルコンテンツとのインタラクションを真に変革するアプリケーションを構築できます。

この画期的なイベントに参加し、マルチモーダルAIの分野でのエキサイティングな機会を探求するチャンスをお見逃しなく。今すぐ登録して、23Labsハッカソンでアイデアを現実に変えましょう！

ElevenLabsチームによる記事をもっと見る

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン