
Turbo v2が登場!
- カテゴリ
- プロダクト
- 日付
ボイスチェンジャーは、もともとスピーチtoスピーチと呼ばれていました。AI音声エージェントの文脈では、「スピーチtoスピーチ」は、1つのモデルが音声入力と出力を直接処理する統合型アーキテクチャも指します。ElevenAgentsは、より高度なカスケード型アーキテクチャを採用しています。詳しくはこちら:カスケード型とフューズド型モデルの違い。
新たに
声にもっと感情を込める

コミュニティメンバーによる使い方紹介はこちら:
もうひとつの使い方は、話し方の「参考例」を作ることです。TTSは通常、イントネーションを自動で調整しますが、細かく調整したい場合もあります。そんな時、ボイスチェンジャーを使えば、特定のフレーズの話し方を実際に示して、好きな声でその通りに再現できます。今後、ボイスチェンジャーをStudioに直接統合することで、さらに便利に使えるようになりますが、ここでの目的は出力をより正確に編集できるようにすることです。
リサーチ
ソーススピーチをターゲットスピーチに変換するには、ソーススピーチの内容をターゲットスピーチの特徴で表現する必要があります。良い例えとしては、顔を入れ替えるアプリがあり、自分の顔と他の人の顔を混ぜて一つの画像を作成することができます。
これを行う方法は、顔の画像を取り、その属性をマッピングすることです。以下の例のマーカーはまさにそれを行います:それらは他の顔がレンダリングされる範囲を示しています。
プロダクトと最近のアップデート
既存のプリセット音声の変更
Eleven Turbo v2 & uLaw 8kHzフォーマット
Turbo v2は、ElevenLabsチームが数か月かけて研究開発した成果です。リアルタイム対話向けに設計されていますが、どんな用途にも対応します。IVRシステム向けの標準(m)uLaw 8kHzフォーマットにも対応しています。
Studioは、業界標準のオーディオブック提出ガイドライン(ゲイン調整やダイナミックコンプレッションなど)に対応しました。さらに、ISBNや著者名、タイトルなどのメタデータもStudioプロジェクトに直接埋め込めます。
この機能は多くのご要望をいただいていました。先月、英語モデルでIPAやCMU辞書を使った発音指定用のSSMLタグに対応しました。現在はStudioのUIでも発音辞書に対応し、IPAやCMU、単語の置き換え(エイリアス)を指定したファイルをアップロードできます。辞書ファイルは業界標準のオープンな.PLS
発音辞書の追加は、最もリクエストの多かった機能の一つです。先月、英語モデル用にIPAとCMU辞書を使用して発音を指定するためのSSMLタグの追加を実装しました。現在、スタジオUIに発音辞書サポートをリリースし、IPA、CMU、または単語の置き換えを使用して発音を指定するファイルをアップロードできるようになりました。辞書ファイルは業界標準のオープンな.PLSレキシコンファイルフォーマットを使用してアップロードされます。
ご意見・ご感想は、ぜひDiscordでお寄せください!こちらでご覧いただけます。
自分の思い通りに話して、そのパフォーマンスをまったく別の声で再現。ささやき声や笑い、アクセント、微妙な感情表現までしっかり伝わります。



