あなたの声を完璧にデジタルコピーし、話せない言語も話そう！

2023年8月22日 • 2 分で読めます

プロフェッショナルボイスクローンは、さまざまなオーディオ用途での利便性と一貫性を提供します

プロフェッショナルボイスクローン (PVC) モデルを一般公開できることを誇りに思います。以前は企業クライアント専用でしたが、今では広くアクセス可能になり、自分の声の完璧なデジタルコピーを作成できます。オリジナルとほとんど区別がつきません。

3月にユーザーが自分の声データをアップロードできるようにし、7月に先着順で声をリリースすると約束しましたが、ついに実現しました。

PVCは、クリエータープラン以上のすべての方に無料で提供されます。さらに、PVCの声はEleven Multilingual v1がサポートするすべての言語を自動的に話すことができます！

Professional Voice Cloning

プロセス

PVCにアクセスするには、VoiceLabに行き、「新しい声を追加」をクリックしてプロフェッショナルボイスクローンを選択してください。インスタントクローン機能とは異なり、PVCは大量の音声サンプルデータセットで専用モデルをトレーニングします - 最低30分、最適は3時間。

最高の出力を確保するために、サンプルを微調整する際にいくつか注意点があります。

まず、トレーニングデータは単一の話者のクリーンな音声ファイルで、バックグラウンドノイズや音楽、その他の効果がないことを確認してください。非音声の音はモデルを混乱させ、出力に影響を与える可能性があります。別々のセッションで録音された複数の音声ファイルをアップロードする場合は、録音条件をできるだけ一致させるようにしてください。リバーブやマイクからの距離の違いが出力を汚染する可能性があります。

話し方についても同様です - すべてのサンプルで話し方を統一する必要があります。例えば、オーディオブックの録音に声を使う予定なら、トレーニングデータはオーディオブックのスタイルで読んだ録音で構成されるべきです。

PVCはEleven Multilingual v1を含むすべてのモデルに統合されています。サポートされている言語を話す場合、自分の声の完璧なレプリカを作成し、他のすべての言語でも話すことができます！

リクエスト数に応じて、モデルは少なくとも月に一度実行され、四半期末に向けてさらにスピードアップが期待されています。

セーフティ

技術の安全な使用を確保し、厳格なユーザープライバシーと倫理ガイドラインを維持するために、自分の声のみをクローンできるように強力なセキュリティ対策を統合しました。

トレーニング用の音声データをアップロードすると、検証ステップが続きます。ここで、テキストキャプチャプロンプトが提供され、10秒以内に声に出して読むよう求められます。この録音の声のプロファイルとアップロードしたデータの声を比較してリクエストを検証します。

一致する場合、リクエストは微調整のために送信されます。一致しない場合、残り4回の検証試行があります。すべて無効な場合、ヘルプセンターを通じて手動で声を確認する必要があります。

共有しない限り、あなたの声はあなた専用であり、他の人には利用できません。

アプリケーション

プロフェッショナルボイスクローンは単なる便利さを超え、個人および商業プロジェクトに多くの利点を提供します。以下はその一部です：

コンテンツ作成：コンテンツクリエイターは、直接録音できない場合でもメッセージを届けることができ、コンテンツスケジュールの中断がなくなります。
オーディオブック：自分の声をクローンし、Studioを使って、オーディオブック全体を自分のスタイルでナレーションできます。本の長さや録音時間に関係なく。
デジタルプレゼンテーション：クローンした声を使って、説得力のある一貫したナラティブを提供し、物理的に存在しなくてもプレゼンテーションの一部になることができます。
IVRシステム：企業は、スタッフの声を自動応答に使用することで、顧客とのやり取りにより個人的なタッチを提供できます。
ポッドキャスト：ポッドキャスターは、録音できない場合でも番組のスケジュールを維持できます。

あなたの新しいデジタルセルフ

プロフェッショナルボイスクローンは、デジタルでの自己表現においてより多くのコントロールを可能にします。単なる声の再現を超え、さまざまなオーディオ用途での便利さと一貫性の機会を提供します！

ElevenLabsチームによる記事をもっと見る

Developer

A bento grid of ui components with the text "Ship agent interfaces faster with ElevenLabs UI"

Developer

Introducing ElevenLabs UI: Open-source audio & agent components for the web

ElevenLabs UI is a component library to help you build multimodal agents faster.

Agents Platform Stories

Sharpen deploys AI voice agents with ElevenLabs

A CCaaS platform now powered by native conversational AI

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン