
Eleven v3 Audio Tags: Emulating accents with precision
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Eleven v3 アルファのご紹介
v3を試すプロフェッショナル ボイスクローン (PVC) モデルを一般公開できることを誇りに思います。以前は企業クライアント専用でしたが、今では広くアクセス可能になり、自分の声の完璧なデジタルコピーを作成できます。オリジナルとほとんど区別がつきません。
3月にユーザーが自分の声データをアップロードできるようにし、7月に先着順で声をリリースすると約束しましたが、ついに実現しました。
PVCは、クリエータープラン以上のすべての方に無料で提供されます。さらに、PVCの声はEleven Multilingual v1がサポートするすべての言語を自動的に話すことができます!
PVCにアクセスするには、VoiceLabに行き、「新しい声を追加」をクリックしてプロフェッショナル ボイスクローンを選択してください。インスタントクローン機能とは異なり、PVCは大量の音声サンプルデータセットで専用モデルをトレーニングします - 最低30分、最適は3時間。
最高の出力を確保するために、サンプルを微調整する際にいくつか注意点があります。
まず、トレーニングデータは単一の話者のクリーンな音声ファイルで、バックグラウンドノイズや音楽、その他の効果がないことを確認してください。非音声の音はモデルを混乱させ、出力に影響を与える可能性があります。別々のセッションで録音された複数の音声ファイルをアップロードする場合は、録音条件をできるだけ一致させるようにしてください。リバーブやマイクからの距離の違いが出力を汚染する可能性があります。
話し方についても同様です - すべてのサンプルで話し方を統一する必要があります。例えば、オーディオブックの録音に声を使う予定なら、トレーニングデータはオーディオブックのスタイルで読んだ録音で構成されるべきです。
PVCはEleven Multilingual v1を含むすべてのモデルに統合されています。サポートされている言語を話す場合、自分の声の完璧なレプリカを作成し、他のすべての言語でも話すことができます!
リクエスト数に応じて、モデルは少なくとも月に一度実行され、四半期末に向けてさらにスピードアップが期待されています。
技術の安全な使用を確保し、厳格なユーザープライバシーと倫理ガイドラインを維持するために、自分の声のみをクローンできるように強力なセキュリティ対策を統合しました。
トレーニング用の音声データをアップロードすると、検証ステップが続きます。ここで、テキストキャプチャプロンプトが提供され、10秒以内に声に出して読むよう求められます。この録音の声のプロファイルとアップロードしたデータの声を比較してリクエストを検証します。
一致する場合、リクエストは微調整のために送信されます。一致しない場合、残り4回の検証試行があります。すべて無効な場合、ヘルプセンターを通じて手動で声を確認する必要があります。
共有しない限り、あなたの声はあなた専用であり、他の人には利用できません。
プロフェッショナル ボイスクローンは単なる便利さを超え、個人および商業プロジェクトに多くの利点を提供します。以下はその一部です:
プロフェッショナル ボイスクローンは、デジタルでの自己表現においてより多くのコントロールを可能にします。単なる声の再現を超え、さまざまなオーディオ用途での便利さと一貫性の機会を提供します!
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.
Fine-grained control over timing, rhythm, and emphasis with Eleven v3 Audio Tags. Transform flat delivery into dynamic, performative content.