スピーチ to スピーチ & プロダクトアップデート

2023年11月1日 • 3 分で読めます

あなたの望む通りに伝えよう！

A microphone on a wooden table in a recording studio with audio equipment in the background.

スピーチ to スピーチ(STS)を音声合成に追加しました。STSは、ある声の録音を別の声で話されているように変換する音声変換ツールです。これにより、感情、トーン、発音をより細かくコントロールできます。TTSのプロンプトだけでは不可能なことです。特定の声からより多くの感情を引き出したり、「こう言ってほしい」という参考として使用してください。

他のアップデートでは、既成の声に変更を加えています。また、プロジェクトに正規化、発音辞書、さらなるカスタマイズオプションを追加するなど、多くの改善を行いました。

VOICE CHANGER（ボイスチェンジャー）

A voice command icon, a yellow circle with a right arrow, and an abstract yellow and orange wave design.

お好きなように発話し、表現を完全にコントロールしながら、別の声でそれを聞くことができます。

スピーチ to スピーチ

STSは、アップロード/録音した音声の内容とスタイルを取り込み、声を変えます。STSは主に2つの用途で役立ちます。

1つは、特定の既成の声からより多くの感情を引き出すことです。非常に表現力豊かな音声をアップロード/録音し、STSがその感情とイントネーションを別の声で再現します。すべての声がTTSのプロンプトだけで強い感情を表現できるわけではないので、プロのナレーターや子供向けの本のキャラクターを自分の声でより表現豊かにすることができます。

STSのもう一つの用途は、スピーチのデリバリーの「参考」を提供することです。通常、TTSはイントネーションをすぐに捉えますが、時には微調整したいこともあります。ここで、STSを使って特定のフレーズのイントネーションを示し、選んだ声にそのように言わせることができます。この機能は、STSをプロジェクトに直接統合することで、より便利でスムーズになりますが、ここでの目標は、出力を正確に編集する能力を大幅に向上させることです。

コミュニティメンバーの一人が作成したビデオをご覧ください：

研究

ソース音声をターゲット音声に変換するには、ソース音声の内容をターゲット音声の特徴で表現する必要があります。良い例えとしては、顔を入れ替えるアプリがあり、自分の顔と他の人の顔を混ぜて一つの画像を作成することができます。

これを行う方法は、顔の画像を取り、その属性をマッピングすることです。以下の例のマーカーはまさにそれを行います：それらは他の顔がレンダリングされる範囲の限界です。

Comparison of facial recognition and facial mapping technology.

Audio waveform with a corresponding speech transcription in a visual format.

音声変換のコツは、ソース音声の内容をターゲット音声の音素を使ってレンダリングすることです。しかし、ここにはトレードオフがあります。顔を入れ替える例と同様に、1つの顔の属性をマッピングするために多くのマーカーを使用すればするほど、その中にマッピングされる顔に多くの制約を課すことになります。マーカーが少ないほど制約は少なくなります。

音声変換でも同じことが言えます。ターゲット音声に多くの優先を与えるほど、ソース音声との同期が取れなくなるリスクがあります。しかし、十分な優先を与えないと、その音声の特徴を失うリスクがあります。例えば、誰かが怒って叫んでいる録音をささやく声でレンダリングすると、問題が生じます。ソース音声の感情にあまりにも多くの優先を与えると、ささやく声で話しているという印象を失う代償を払います。ささやく音声パターンにあまりにも多くの重点を置くと、ソース音声の感情的な力を失います。

プロダクトと最近のアップデート

既成の声の変更

今週後半に音声合成で利用可能なデフォルトの声に変更を加えます。いくつかの声のサポートを停止しますが、新しい声に置き換えます。今後数週間で合計20以上を追加する予定です。

また、各声がどのくらいの期間利用可能かについてのUI情報を提供し始めます。最後に、12月を通じてプラットフォームの声の共有と使用補償機能を刷新し、声の多様性をさらに向上させる作業を行います。詳細は近日中にお知らせします。

Eleven Turbo v2 & uLaw 8khzフォーマット

Turboモデルは、技術チームの数ヶ月にわたる研究を詰め込んでいます。リアルタイムのインタラクション用に設計されていますが、何にでも使用できます。また、IVRシステム用の標準(m)uLaw 8kHzフォーマットも備えています。

プロジェクトでの正規化とメタデータ

プロジェクト内で業界標準のオーディオブック提出ガイドラインに従うことができるようになりました。これには、ゲインの調整やダイナミックコンプレッションの適用が含まれます。さらに、プロジェクトにメタデータ（ISBN、著者、タイトル）を埋め込むオプションも追加されました。

発音日記

発音辞書の追加は、最もリクエストの多かった機能の一つです。先月、英語モデル用にIPAとCMU辞書を使用して発音を指定するためのSSMLタグの追加を実装しました。現在、プロジェクトUIに発音辞書サポートをリリースし、IPA、CMU、または単語の置換を使用して発音を指定するファイルをアップロードできるようになりました。辞書ファイルは業界標準のオープンな.PLSレキシコンファイルフォーマットを使用してアップロードされます。

現在、IPAとCMUはTurbo V2英語でサポートされており、単語の置換（エイリアス）はすべてのモデルと言語でサポートされています。完全なドキュメントはこちらでご覧いただけます。