Scribe（スクライブ）が登場

執筆者: Tim von Känel; Flavio Schneider
公開日: 2025年2月26日

聴くこの記事を聴く

0:00

0:000:00

Scribe（スクライブ）、この私たちの最初の Speech to Text（音声テキスト変換）モデルは、世界で最も正確な文字起こしモデルです。実世界の音声の予測不可能性に対応するために設計されたScribe（スクライブ）は、99言語のスピーチを文字起こしし、単語レベルのタイムスタンプ、話者の識別、音声イベントのタグ付けを特徴としています。これらはすべて、シームレスな統合のために構造化されたレスポンスとして提供されます。

Scribe（スクライブ）は高い精度を実現するために設計されています。FLEURSとCommon Voiceのベンチマークテストでは、99の言語にわたって、Gemini 2.0 Flash、Whisper Large V3、Deepgram Nova-3などの主要モデルを一貫して上回っています。会議の要約、映画の字幕、さらには歌の歌詞であっても、Scribe（スクライブ）はイタリア語（98.7%）、英語（96.7%）、および他の97言語において、最も低い自動文字起こしの単語エラー率を提供します。

Scribe（スクライブ）はASRを普遍的に利用可能にし、セルビア語、広東語、マラヤーラム語などの伝統的にサービスが行き届いていない言語におけるエラーを劇的に減少させます。競合するモデルはしばしば40％を超える単語誤り率を示します。

The world's most accurate ASR model by IIElevenLabs.

開発者は今日、音声テキスト変換 (STT) API を通じて、話者の識別、単語レベルのタイムスタンプ、非発話イベントマーカー（例：笑い）を含む構造化されたJSON形式の文字起こしを取得するためにScribe（スクライブ）を統合することが可能になります。リアルタイムアプリケーション向けの低遅延バージョンが近日中にリリースされます。

クリエイターや企業は、音声または動画ファイルをアップロードし、フォーマットされたトランスクリプトを生成するために ElevenLabsのダッシュボードから、直接Scribe（スクライブ）を利用することができます。

Scribeでの構築を始めましょう：

API ドキュメント | ElevenLabsダッシュボードで試してみてください