
ElevenLabsがKiro Powerとして利用可能に
- カテゴリ
- ElevenAPI
- 日付
Vibe DrawはElevenLabsの音声AIとFLUX Kontextを組み合わせ、音声で画像を作成します。
音声インターフェースはAIとのコミュニケーションを変えています。画像を作成するのが声で説明するだけで済むとしたらどうでしょう?
それが週末プロジェクトとしてVibe Drawを作成するきっかけとなりました。これは音声を優先したクリエイティブツールで、ElevenLabsの音声AIとBlack Forest LabsのFLUX Kontextを組み合わせ、音声プロンプトを画像に変換します。
FLUX Kontextは新しいクラスの画像モデルを表しています。従来のテキストから画像へのシステムとは異なり、Kontextは生成と編集の両方を処理します。プロンプトから新しい画像を作成したり、既存のものを修正したり、複数の参照画像を1つの出力に統合することができます。
GPT-4oやGemini 2 Flashのようなモデルがマルチモーダル機能を提供する一方で、FLUX Kontextは高品質なビジュアル操作のために特化されています。テストでは、スタイライズされたテキストの個々の文字を変更したり、オブジェクトの位置を変更したりすることができました—ただ変更を説明するだけで。
その時に思ったのです:「これを音声でやってみたらどうだろう?」そしてElevenLabsの強力な音声技術以上の基盤はありません。
.webp&w=3840&q=95)
音声駆動の画像システムを構築するには、5つの主要な問題を解決する必要がありました:
Vibe Drawは完全にクライアントサイドで動作し、以下のコンポーネントを統合しています:
このアプローチによりプロトタイプは軽量に保たれますが、本番環境ではセキュリティのためにサーバーサイドでリクエストをプロキシするべきです。
Vibe DrawはElevenLabsの
バリエーションを作るために、音声応答は事前定義されたテンプレートからランダムに選ばれます:
重複する音声応答は会話の錯覚を壊します。Vibe Drawはオーディオキューシステムでこれを解決します:
各メッセージは次をトリガーする前に完全に再生されます。
システムはキーワードとコンテクスト検出を使用して、ユーザープロンプトが新しい画像リクエストか編集かを判断します:
このアプローチにより、既存の画像があり、コンテクストが明確な場合にのみ編集が適用されることを保証します。

Kontextは生成と編集の2つのモードをサポートしています。
一部のプロンプトは編集APIの限界を超える変更を示唆します。検出された場合、システムはフォールバックを提供します:
UIフィードバックはユーザーがシステムの状態を追跡するのを助けます:
自然な会話には自然なタイミングが必要です:
コンテクストを保持するために、セッションデータが保存されます:
応答性を確保するために:
会話型UIは新しい機能への扉を開きます:
Vibe Drawの構築は、音声優先ツールのいくつかの基本原則を明らかにしました:
Vibe Drawは、会話型音声AIが視覚的創造性と出会うと何が起こるかを示しています。ElevenLabsの自然な音声合成とFLUX Kontextの画像APIが組み合わさり、クリックもスライダーも不要で、ただ音声で作成する新しい方法を生み出します。
作成が説明するだけで簡単になると、想像力と実行の間の障壁が取り除かれます。
完全なソースコードはGitHubで利用可能です。自分のバージョンを実行するには:



