
Graydon Carter’s Air Mail, now in audio
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
スマートなアーキテクチャとガードレールによる制御されたAI体験の構築
成功するエンタープライズAIは、最新技術を持つだけでなく、AIの基本に基づいた適切なアーキテクチャとコントロールが必要です。市販のLLMは強力ですが、ビジネスロジックやブランドガイドライン、セーフティ原則を遵守する深い知識が欠けています。このカスタム体験は、プロンプト、LLM、ガードレール、ツール、その他の構成要素を慎重に設計し、テストすることでのみ実現できます。これにより、生成AIの動作をエンタープライズルールに従わせることができます。
会話型音声AIを構築する際、デベロッパーは、マルチモーダルの音声対音声モデルを使用するか、ASR(文字起こし)、LLM、TTSのコンポーネントを組み合わせることができます。特定のユースケースを持つ企業にとって、後者の方が実用的な場合が多いです。ASR (transcription), LLMs, and TTS. For enterprises with specific use-cases, the latter can often be more practical.
「エンタープライズ環境では、AIは単にLLMだけでは実現できません」とScaleのGenAIプラットフォームのエンジニアリング責任者であるFelix Suは説明します。「複雑なシステムは、ビジネスロジックを遵守し、ブランドイメージを維持し、厳格なガードレール内で動作するように設計する必要があります。これらの動作は各企業にカスタムであるため、LLMの潜在的な動作に頼るのではなく、これらのシステムをLLMの上に実装する方が実用的です。最近、マルチモーダル機能がモデルに直接組み込まれましたが、これらのモデルを重要なプロダクションユースケースに採用する速度は予想より遅れています。これは、生成とそのモダリティの入力と出力の間のコントロールが不足しているためです。TIME AIの場合、STTとTTSを使用することで、テキストベースのLLMへの入力を制御し、カスタムガードレールを使用してシステムの出力を保護することができました。この技術は、直接マルチモーダルLLMを使用するよりも実用的であることが多いです。」
TIME AIの体験を構築する際、ScaleはTIMEの記事のコーパスをオンデマンドで取得できる知識ベースにインデックス化し、ビジネスロジックを一連のシステムプロンプトにエンコードし、GenAIの出力を幻覚やセーフティおよびブランドガイドラインの違反から保護しました。このシステムの上に、ElevenLabsの会話型AIオーケストレーションプラットフォームの音声を使って体験を実現しました。
最近のTIME AIのローンチにより、読者はTIMEのジャーナリズム、特に象徴的なパーソン・オブ・ザ・イヤーの報道について自然な会話を楽しむことができます。この実装が他の無数のチャットボットと異なるのは、その知識だけでなく、音声です。
「音声を使用することで、本当に良いパンチの効いた感覚が加わりました」とSuは振り返ります。「それがなければ、ただの別のチャットボットとして埋もれてしまいます。エージェントをライブの読み取りパートナーのように感じさせ、スクリプト外の会話の深いダイブを可能にしたかったのです。」この実装は、Scale AIのAI開発における専門知識とElevenLabsの会話型AIプラットフォームを組み合わせ、非常に人間らしい体験を作り出しながら、コンテンツとブランドの音声を厳密にコントロールしています。
エンタープライズが大規模に会話型AIを展開するためには、Scale AIとElevenLabsと協力することで実績のある道筋を提供します。Scale AIは、制御された安全なマルチモーダルAIシステムを堅牢なガードレールで構築する深い専門知識を提供し、ElevenLabsはこれらのシステムにシームレスに統合できる最高の音声技術を提供します。
TIMEの実装はジャーナリズムに焦点を当てていますが、同じアーキテクチャは、特にカスタマーサービスやサポートにおいて、さまざまなエンタープライズユースケースに適用できます。顧客は基本的なチャットボットに飽きており、より魅力的で人間らしい対話を求めています。
この投稿に貢献してくれたFelixに感謝します。Felix SuはLinkedInとXで見つけることができ、彼がTIMEと共に構築した会話型AI音声体験を彼らのパーソン・オブ・ザ・イヤー2024、および2021、2022、2023で体験できます。
デベロッパーはドキュメントを使って会話型AIを始めることができ、プロダクションで信頼できる会話型音声ソリューションを展開したい企業は、ElevenLabsとScaleのエンタープライズソリューションチームに連絡できます。
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
Startup Grants are now available for 12 months, with every recipient receiving 33 million free credits to use across our platform, equivalent to over 680 hours of Conversational AI audio. That’s a full year of free access to ElevenLabs’ AI audio, giving founders the runway to prototype, iterate, and scale.
Powered by ElevenLabs 会話型AI