音声インターフェースはAIとのコミュニケーションを変えています。画像を作成するのが声で説明するだけで済むとしたらどうでしょう?
それが週末プロジェクトとしてVibe Drawを作成するきっかけとなりました。これは音声を優先したクリエイティブツールで、ElevenLabsの音声AIとBlack Forest LabsのFLUX Kontextを組み合わせ、音声プロンプトを画像に変換します。
FLUX Kontextは新しいクラスの画像モデルを表しています。従来のテキストから画像へのシステムとは異なり、Kontextは生成と編集の両方を処理します。プロンプトから新しい画像を作成したり、既存のものを修正したり、複数の参照画像を1つの出力に統合することができます。
GPT-4oやGemini 2 Flashのようなモデルがマルチモーダル機能を提供する一方で、FLUX Kontextは高品質なビジュアル操作のために特化されています。テストでは、スタイライズされたテキストの個々の文字を変更したり、オブジェクトの位置を変更したりすることができました—ただ変更を説明するだけで。
その時に思ったのです:「これを音声でやってみたらどうだろう?」そしてElevenLabsの強力な音声技術以上の基盤はありません。