
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
プロフェッショナル ボイスクローン (PVC) モデルを一般公開できることを誇りに思います。以前は企業クライアント専用でしたが、今では広くアクセス可能になり、自分の声の完璧なデジタルコピーを作成できます。オリジナルとほとんど区別がつきません。
3月にユーザーが自分の声データをアップロードできるようにし、7月に先着順で声をリリースすると約束しましたが、ついに実現しました。
PVCは、クリエータープラン以上のすべての方に無料で提供されます。さらに、PVCの声はEleven Multilingual v1がサポートするすべての言語を自動的に話すことができます!
PVCにアクセスするには、VoiceLabに行き、「新しい声を追加」をクリックしてプロフェッショナル ボイスクローンを選択してください。インスタントクローン機能とは異なり、PVCは大量の音声サンプルデータセットで専用モデルをトレーニングします - 最低30分、最適は3時間。
最高の出力を確保するために、サンプルを微調整する際にいくつか注意点があります。
まず、トレーニングデータは単一の話者のクリーンな音声ファイルで、バックグラウンドノイズや音楽、その他の効果がないことを確認してください。非音声の音はモデルを混乱させ、出力に影響を与える可能性があります。別々のセッションで録音された複数の音声ファイルをアップロードする場合は、録音条件をできるだけ一致させるようにしてください。リバーブやマイクからの距離の違いが出力を汚染する可能性があります。
話し方についても同様です - すべてのサンプルで話し方を統一する必要があります。例えば、オーディオブックの録音に声を使う予定なら、トレーニングデータはオーディオブックのスタイルで読んだ録音で構成されるべきです。
PVCはEleven Multilingual v1を含むすべてのモデルに統合されています。サポートされている言語を話す場合、自分の声の完璧なレプリカを作成し、他のすべての言語でも話すことができます!
リクエスト数に応じて、モデルは少なくとも月に一度実行され、四半期末に向けてさらにスピードアップが期待されています。
技術の安全な使用を確保し、厳格なユーザープライバシーと倫理ガイドラインを維持するために、自分の声のみをクローンできるように強力なセキュリティ対策を統合しました。
トレーニング用の音声データをアップロードすると、検証ステップが続きます。ここで、テキストキャプチャプロンプトが提供され、10秒以内に声に出して読むよう求められます。この録音の声のプロファイルとアップロードしたデータの声を比較してリクエストを検証します。
一致する場合、リクエストは微調整のために送信されます。一致しない場合、残り4回の検証試行があります。すべて無効な場合、ヘルプセンターを通じて手動で声を確認する必要があります。
共有しない限り、あなたの声はあなた専用であり、他の人には利用できません。
プロフェッショナル ボイスクローンは単なる便利さを超え、個人および商業プロジェクトに多くの利点を提供します。以下はその一部です:
プロフェッショナル ボイスクローンは、デジタルでの自己表現においてより多くのコントロールを可能にします。単なる声の再現を超え、さまざまなオーディオ用途での便利さと一貫性の機会を提供します!
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
Powered by ElevenLabs 会話型AI