ボイスチェンジャーのご紹介

公開日: 2023年11月22日

聴くこの記事を聴く

0:00

0:000:00

ボイスチェンジャーは、もともとスピーチtoスピーチと呼ばれていました。AI音声エージェントの文脈では、「スピーチtoスピーチ」は、1つのモデルが音声入力と出力を直接処理する統合型アーキテクチャも指します。ElevenAgentsは、より高度なカスケード型アーキテクチャを採用しています。詳しくはこちら：カスケード型とフューズド型モデルの違い。

新たに

これにより、

声にもっと感情を込める

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

コミュニティメンバーによる使い方紹介はこちら：

もうひとつの使い方は、話し方の「参考例」を作ることです。TTSは通常、イントネーションを自動で調整しますが、細かく調整したい場合もあります。そんな時、ボイスチェンジャーを使えば、特定のフレーズの話し方を実際に示して、好きな声でその通りに再現できます。今後、ボイスチェンジャーをStudioに直接統合することで、さらに便利に使えるようになりますが、ここでの目的は出力をより正確に編集できるようにすることです。

リサーチ

この方法は、顔画像の特徴をマッピングすることです。下の例のマーカーは、その特徴を示しており、この範囲内で別の顔が再現されます。

ソーススピーチをターゲットスピーチに変換するには、ソーススピーチの内容をターゲットスピーチの特徴で表現する必要があります。良い例えとしては、顔を入れ替えるアプリがあり、自分の顔と他の人の顔を混ぜて一つの画像を作成することができます。

これを行う方法は、顔の画像を取り、その属性をマッピングすることです。以下の例のマーカーはまさにそれを行います：それらは他の顔がレンダリングされる範囲を示しています。

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

プロダクトと最近のアップデート

既存のプリセット音声の変更

テキスト読み上げで利用できるデフォルト音声を一部変更します。いくつかの音声を終了し、新しい音声に置き換えます。今後数週間で20種類以上の新しい音声を追加予定です。

また、各音声がどのくらい利用可能か、UI上で案内を開始します。12月中は、音声のシェアや利用報酬機能も刷新し、より多様な音声を提供できるようにします。詳細は追ってお知らせします。

Eleven Turbo v2 & uLaw 8kHzフォーマット

Turbo v2は、ElevenLabsチームが数か月かけて研究開発した成果です。リアルタイム対話向けに設計されていますが、どんな用途にも対応します。IVRシステム向けの標準（m）uLaw 8kHzフォーマットにも対応しています。

Studioでの正規化とメタデータ対応

Studioは、業界標準のオーディオブック提出ガイドライン（ゲイン調整やダイナミックコンプレッションなど）に対応しました。さらに、ISBNや著者名、タイトルなどのメタデータもStudioプロジェクトに直接埋め込めます。

発音辞書

この機能は多くのご要望をいただいていました。先月、英語モデルでIPAやCMU辞書を使った発音指定用のSSMLタグに対応しました。現在はStudioのUIでも発音辞書に対応し、IPAやCMU、単語の置き換え（エイリアス）を指定したファイルをアップロードできます。辞書ファイルは業界標準のオープンな.PLS

IPAとCMUは現在Turbo v2英語モデルで対応しています。単語の置き換えはすべてのモデル・言語で利用可能です。詳しいドキュメントは

発音辞書の追加は、最もリクエストの多かった機能の一つです。先月、英語モデル用にIPAとCMU辞書を使用して発音を指定するためのSSMLタグの追加を実装しました。現在、スタジオUIに発音辞書サポートをリリースし、IPA、CMU、または単語の置き換えを使用して発音を指定するファイルをアップロードできるようになりました。辞書ファイルは業界標準のオープンな.PLSレキシコンファイルフォーマットを使用してアップロードされます。

ご意見・ご感想は、ぜひDiscordでお寄せください！こちらでご覧いただけます。