Eleven Musicを紹介します。どんな瞬間にもぴったりの曲を作りましょう。

詳細はこちら

スピーチ to スピーチの紹介

望む通りに話し、感情やタイミング、表現を完全にコントロールして別のキャラクターの声に変換

スピーチ to スピーチ(STS)を音声合成に追加しました。STSは、ある声の録音を別の声で話しているように変換する音声変換ツールです。感情、トーン、発音をより細かくコントロールできます。TTSのプロンプトだけではできないことです。特定の声からより多くの感情を引き出したり、「こう言ってほしい」という参考として使用できます。

他のアップデートとして、既成の声に変更を加えています。また、スタジオに正規化、発音辞書、さらなるカスタマイズオプションを追加しました。

スピーチ to スピーチ

STSは、アップロード/録音したスピーチの内容とスタイルを取り込み、声を変えます。STSは主に2つの用途に役立ちます。

A recording studio with a microphone, headphones, sound mixing console, and a large screen displaying a speech-to-speech waveform.

1つは、特定の既成の声からより多くの感情を引き出すことです。非常に表現力豊かなスピーチをアップロード/録音し、STSが別の声でその感情やイントネーションを再現します。TTSのプロンプトだけでは強い感情を表現できない場合もあるため、プロのナレーターや子供向けの本のキャラクターを自分の声でより表現豊かにすることができます。

STSのもう一つの用途は、スピーチのデリバリーの「参考」を提供することです。通常、TTSはイントネーションをすぐに捉えますが、微調整したい場合もあります。ここで、STSを使って特定のフレーズのイントネーションを示し、選んだ声でそのように言わせることができます。この機能は、STSをスタジオに直接統合することで、より便利でスムーズになりますが、ここでの目標は、出力を正確に編集する能力を大幅に向上させることです。

コミュニティメンバーの一人が作成したビデオをご覧ください:

研究

ソーススピーチをターゲットスピーチに変換するには、ソーススピーチの内容をターゲットスピーチの特徴で表現する必要があります。良い例えとしては、顔を入れ替えるアプリがあり、自分の顔と他の人の顔を混ぜて一つの画像を作成することができます。

これを行う方法は、顔の画像を取り、その属性をマッピングすることです。以下の例のマーカーはまさにそれを行います:それらは他の顔がレンダリングされる範囲を示しています。

Comparison of facial recognition and facial mapping technology.
Audio waveform with a corresponding speech transcription in a visual format.

音声変換のコツは、ターゲットスピーチの音素を使ってソーススピーチの内容をレンダリングすることです。しかし、顔の入れ替えの例と同様に、ここにはトレードオフがあります:一つの顔の属性をマッピングするために多くのマーカーを使用すればするほど、その中にマッピングする顔に多くの制約を課すことになります。マーカーが少ないほど制約も少なくなります。

音声変換でも同じことが言えます。ターゲットスピーチに多くの優先を与えるほど、ソーススピーチとの同期が取れなくなるリスクがあります。しかし、十分な優先を与えないと、そのスピーチの特徴を失うリスクがあります。例えば、誰かが怒って叫んでいる録音をささやく声でレンダリングすると問題になります。ソーススピーチの感情にあまりにも多くの優先を与えると、それがささやく声であるという印象を失う代償を払います。ささやくスピーチパターンにあまりにも重点を置くと、ソーススピーチの感情的な力を失います。

プロダクトと最近のアップデート

既成の声の変更

今週後半に音声合成で利用可能なデフォルトの声に変更を加えます。いくつかの声のサポートを終了しますが、新しい声に置き換えます。今後数週間で合計20以上を追加する予定です。

また、各声がどのくらいの期間利用可能かについてのUI情報を提供し始めます。最後に、12月を通じてプラットフォームの声の共有と使用補償機能を刷新し、声の多様性をさらに向上させる作業を行います。詳細は近日中にお知らせします。

Eleven Turbo v2 & uLaw 8khzフォーマット

Turboモデルは、技術チームの数ヶ月にわたる研究を詰め込んだものです。リアルタイムのインタラクション用に設計されていますが、何にでも使用できます。また、IVRシステム用の標準(m)uLaw 8kHzフォーマットも備えています。

スタジオでの正規化とメタデータ

スタジオ内で業界標準のオーディオブック提出ガイドラインに従うことができます。これには、ゲインの調整やダイナミックコンプレッションの適用が含まれます。さらに、スタジオ内にメタデータ(ISBN、著者、タイトル)を埋め込むオプションもあります。

発音辞書

発音辞書の追加は、最もリクエストの多かった機能の一つです。先月、英語モデル用にIPAとCMU辞書を使用して発音を指定するためのSSMLタグの追加を実装しました。現在、スタジオUIに発音辞書サポートをリリースし、IPA、CMU、または単語の置き換えを使用して発音を指定するファイルをアップロードできるようになりました。辞書ファイルは業界標準のオープンな.PLSレキシコンファイルフォーマットを使用してアップロードされます。

現在、IPAとCMUはTurbo V2英語でサポートされており、単語の置き換え(エイリアス)はすべてのモデルと言語でサポートされています。完全なドキュメントはこちらでご覧いただけます。

Upload area for a Lexicon file with instructions to click or drag and drop a .pls/.txt/.xml file, size limit 1.5MB.
Pronunciation diary

フィードバックがあれば、ぜひDiscordでご連絡ください!

ElevenLabsチームによる記事をもっと見る

Safety

Safety framework for AI voice agents

AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン