こちらがスクライブ (Scribe) です!

世界で最も正確なASRモデルで音声を文字に変換

スクライブ、この私たちの最初の Speech to Text(音声テキスト変換) モデルは、世界で最も正確な文字起こしモデルです。実世界の音声の予測不可能性に対応するために設計されたスクライブは、99言語のスピーチを文字起こしし、単語レベルのタイムスタンプ、話者の識別、音声イベントのタグ付けを特徴としています。これらはすべて、シームレスな統合のために構造化されたレスポンスとして提供されます。

スクライブは高い精度を実現するために設計されています。FLEURSとCommon Voiceのベンチマークテストでは、99の言語にわたって、Gemini 2.0 Flash、Whisper Large V3、Deepgram Nova-3などの主要モデルを一貫して上回っています。会議の要約、映画の字幕、さらには歌の歌詞であっても、スクライブはイタリア語(98.7%)、英語(96.7%)、および他の97言語において、最も低い自動文字起こしの単語エラー率を提供します。

スクライブはASRを普遍的に利用可能にし、セルビア語、広東語、マラヤーラム語などの伝統的にサービスが行き届いていない言語におけるエラーを劇的に減少させます。競合するモデルはしばしば40%を超える単語誤り率を示します。

開発者は今日、 音声テキスト変換 (STT) API を通じて、話者の識別、単語レベルのタイムスタンプ、非発話イベントマーカー(例:笑い)を含む構造化されたJSON形式の文字起こしを取得するためにスクライブを統合することが可能になります。リアルタイムアプリケーション向けの低遅延バージョンが近日中にリリースされます。

クリエイターや企業は、音声または動画ファイルをアップロードし、フォーマットされたトランスクリプトを生成するために ElevenLabsのダッシュボード から、直接スクライブを利用することができます。

スクライブで構築を始めましょう:

API ドキュメント | ElevenLabsダッシュボードで試してみてください

ベンチマーク

FLEURS - 単語誤り率 (WER) % - 102 言語

Common Voice - 単語誤り率 (WER) % - 102 言語

コントリビューション

研究リード、トレーニング、アーキテクチャ

フラビオ・シュナイダー

プロジェクトリード、事前トレーニングデータ、ファインチューニングデータ

ティム・フォン・ケーネル

推論、最適化

マキシミリアーノ・レビ

研究貢献者

ヨハン・ノルドベリ、ピオトル・ダブコフスキ

フロントエンド

オースティン・マレルバ

バックエ

フリスト・ストイチェフ

データ取得

アレックス・ジョージ

もっと見る

プロダクト
Conversational AI SEO Image

会話型AIのご紹介

カスタマイズ可能なインタラクティブ音声エージェントを構築するためのオールインワンプラットフォーム

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちの方 ログイン