.webp&w=3840&q=80)
Vibe Drawの構築: ElevenLabsとFLUX Kontextを組み合わせた音声駆動の画像作成
- カテゴリ
- デベロッパー
- 日付
エンティティ自動マスキング、インド系英語の認識精度向上、新しいノーバーバティムモード、最大1,000件まで拡張されたキータームプロンプトを導入しました。
これらの改善により、デベロッパーはプライバシー、多言語対応精度、文字起こし品質、専門分野ごとの精度をより細かくコントロールできます。
Scribe v2は、文字起こしデータから氏名、クレジットカード番号、社会保障番号などの個人情報を自動で検出し、マスキングできるようになりました。
マスキングは文字起こしの過程で行われ、機密データは保存や他システムに渡る前に削除されます。
この機能は、医療、金融、カスタマーサポートなど、PII(個人情報)の管理が求められるチームに特に役立ちます。文字起こしデータの保存や共有前に対応できます。
インドでは、英語とヒンディー語、テルグ語、カンナダ語などを混ぜて話すことが一般的です。多くの文字起こしシステムは英単語をインド系文字に変換してしまい、実際の会話の雰囲気が失われます。
Scribe v2は、周囲の言語に関係なく英単語を英語(ラテン文字)で文字起こしします。言語設定は不要で、英語・ヒンディー語・言語コードなしでも英単語はそのままラテン文字で記録されます。
この機能はヒンディー語だけでなく、他のインド系言語にも対応しています。例えばテルグ語やカンナダ語と英語を切り替えて話しても、英語部分は正しく文字起こしされます。
ノーバーバティムモードを新たに追加しました。この設定を使うと、「えー」「あー」などのフィラーや、繰り返し・どもりを自動で除去できます。
手作業で編集や後処理をしなくても、読みやすいきれいな文字起こしが得られます。
ノーバーバティムモードは、会議メモや字幕、きれいな記録が必要なワークフローに最適です。すべての音をそのまま記録するのではなく、整った文章を重視する場合におすすめです。
キータームプロンプトは、1つの文字起こしにつき最大1,000語・フレーズまで対応しました(従来は100件まで)。
これにより、専門用語が多い技術文書や商品カタログ、分野特有の用語を扱うチームでも、モデルにより多くの指示を与えて正確な文字起こしが可能になります。
キータームプロンプトは文脈を考慮して動作します。モデルは周囲の音声からキータームが該当するか判断し、無理に挿入することはありません。1,000件対応で、従来の10倍の容量です。
注意:キータームが100件を超えるリクエストは、最小課金単位が20秒となります。
これらの新機能は、Scribe v2のAPIおよびUIで本日よりご利用いただけます。
ドキュメントはこちら:
https://elevenlabs.io/docs/cookbooks/speech-to-text/quickstart
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)