SPEECH TO TEXT(音声テキスト変換)

世界で最も正確なASRモデルで音声を文字に変換

Scribeを使用すると、99の言語で業界最高水準の文字起こし精度を実現できます。これには、文字単位のタイムスタンプ、スピーカーダイアライゼーション、音声イベントのタグ付けが含まれ、すべてが構造化されたAPIレスポンスで提供され、シームレスな統合が可能です。

フルオーディオAIプラットフォームを体験

完璧に捉えられたすべての言葉

Scribeはあらゆるニュアンスに耳を傾け、比類のない精度で1単語1単語を捉えます。99言語で音声の文字起こしを行い、文字ごとのタイムスタンプ、話者の識別、音声イベントのタグ付けを実施します。これにより、シームレスな統合のための構造化された結果を提供します。

アプリの強力な音声テキスト変換機能

Scribeを使用して、あなたの音声を完璧なテキストに変換しましょう。Scribeは、世界で最も先進的な自動音声認識(ASR)モデルで、最も簡単な音声文字変換のAPI統合を提供します。

Sirius software interface with gradient color bar, labeled "II Scribe V1," "Gemini 2.0 Flash," and "Whisper Large v3" on a black background.

業界トップクラスの精度

かつてない精度を実現—Scribeは業界で最も低い誤字率を提供し、完璧なテキスト変換を実現します。

Three glowing, multicolored circular shapes on a black background.

スマートスピーカーによる話者識別

どんな会話でも、たとえ忙しいものであっても、Scribeは直感的にすべての話者を区別しラベル付けし、明確で整理されたトランスクリプトを提供します。

Audio level meter with red and white bars, showing levels around 1:00.

正確なワードレベルのタイムスタンプ

各単語が発音される瞬間を正確に捉えます。Scribeの詳細なタイムスタンプにより、シームレスな字幕同期とインタラクティブな音声体験が実現します。

laughter

動的なオーディオタグ付け

笑い声から足音まで、Scribeのテキスト変換モデルはすべての音声イベントにタグを付け、音声の完全な文脈でトランスクリプトを豊かにします。

99 Languages supported

グローバルな言語サポート

99の言語に対応し、言語の壁を打破—Scribeは、これまで手が届かなかった言語に対してAIによる文字起こしの機能を解放します。

DEVELOPERS(デベロッパー)

ElevenLabs Scribe (スクライブ) を統合する

世界で最も正確な音声テキスト変換モデルをアプリケーションにシームレスに統合します。話者識別、文字単位のタイムスタンプ、音声イベントのタグ付けなどの機能を紹介する、開発者に優しいサンプルを使って始めましょう。これにより、完璧な文字起こしが実現します。

FLEURSベンチマークパフォーマンス

Scribe V1の性能はFLEURSベンチマークで最先端です

Common Voiceベンチマークパフォーマンス

Scribe V1の性能はCommon Voiceベンチマークで最先端です

ベンチマーク

世界で最も正確なASRモデルで、99以上の言語に対応しています。

Center screen displays a presentation slide titled "The world's most accurate ASR model" by IIElevenLabs, with a gradient bar labeled "II Scribe" and version "V1".

他のASRモデルと比較したベンチマークによると、Scribeは主要な言語で98%以上の文字起こし精度を提供し、これまで十分に対応されてこなかった言語(セルビア語、広東語、マラヤーラム語など)ではエラーを大幅に減少させています。

無料で文字起こしを始める

AIによる99言語の音声からテキストへの変換

私たちのAIによる音声からテキストへの変換は99の言語に対応しています。言語を選択し、音声ファイルをアップロードするだけです。

アフリカーンス語
アムハラ語
アラビア語
アルメニア語
アッサム語
アストゥリアス語
アゼルバイジャン語
ベラルーシ語
ベンガル語
ボスニア語
ブルガリア語
ビルマ語
広東語
カタルーニャ語
中央クルド語
チェワ語
中国語
クロアチア語
チェコ語
デンマーク語
オランダ語
英語
エストニア語
フィリピン語
フィンランド語
フランス語
フラ語
ガリシア語
ガンダ語
ジョージア語
ドイツ語
ギリシャ語
グジャラート語
ハウサ語
ヘブライ語
ヒンディー語
ハンガリー語
アイスランド語
イボ語
インドネシア語
アイルランド語
イタリア語
日本語
ジャワ語
カボベルデ語
カンナダ語
カザフ語
クメール語
キルギス語
韓国語
ラオス語
ラトビア語
リンガラ語
リトアニア語
ルオ語
ルクセンブルク語
マケドニア語
マレー語
マラヤーラム語
マルタ語
マオリ語
マラーティー語
モンゴル語
ネパール語
北ソト語
ノルウェー語
オック語
オリヤー語
パシュトゥー語
ペディ語
ペルシャ語
ポーランド語
ポルトガル語
パンジャブ語
ルーマニア語
ロシア語
セルビア語
ショナ語
シンド語
スロバキア語
スロベニア語
ソマリ語
スペイン語
スワヒリ語
スウェーデン語
タジク語
タミル語
テルグ語
タイ語
トルコ語
ウクライナ語
ウンブンドゥ語
ウルドゥー語
ウズベク語
ベトナム語
ウェールズ語
ウォロフ語
コサ語
ズールー語

よくある質問

優れた精度(≤5%ワード誤り率-WER)
ブルガリア語、カタルーニャ語、チェコ語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ガリシア語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、カンナダ語、マレー語、マラヤーラム語、マケドニア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語

高精度(>5%~≤10%のWER)
ベンガル語、ベラルーシ語、ボスニア語、広東語、エストニア語、フィリピン語、グジャラート語、ハンガリー語、カザフ語、ラトビア語、リトアニア語、北京語、マラーティー語、ネパール語、オディア語、ペルシア語、スロベニア語、タミル語、テルグ語

良好(>10%~25%のWER)
アフリカーンス語、アラビア語、アルメニア語、アッサム語、アストゥリアス語、アゼルバイジャン語、ビルマ語、セブアノ語、クロアチア語、グルジア語、ハウサ語、ヘブライ語、アイスランド語、ジャワ語、カブベルディアヌ語、韓国語、キルギス語、リンガラ語、マルタ語、モンゴル語、マオリ語、オック語、パンジャブ語、シンド語、スワヒリ語、タジク語、タイ語、ウルドゥー語、ウズベク語、ウェールズ語

中等度(25%以上50%未満のWER)
アムハラ語、チチェワ語、フラー語、ガンダ語、イボ語、アイルランド語、クメール語、クルド語、ラオス語、ルクセンブルク語、ルオ語、北部ソト語、パシュトー語、ショナ語、ソマリ語、ウンブンドゥ語、ウォロフ語、コサ語、ズールー語

STT(Speech-to-Text)は、自動音声認識(ASR)によって音声言語を文字に変換する技術である。音声信号を処理し、音声パターンを識別し、高精度にテキストに変換します。 ElevenLabsのAI搭載音声認識ソフトウェアは、オーディオやビデオコンテンツを人間のような精度で文字起こしするように設計されており、音声からテキストへの変換、オーディオの文字起こし、リアルタイムの音声認識に最適です。 音声テキスト変換技術は、次の分野で使用されています。 ✔ポッドキャスト、ミーティング、インタビュー用の音声テキスト変換。 ✔動画コンテンツ内のキャプションや字幕。 ✔ハンズフリー入力やアクセシビリティツールに対応した音声読み上げソフト。 ElevenLabsのASRは、複数の言語とアクセントに対応した迅速で信頼性の高い、高精度な音声からテキストへの変換を提供します。

ElevenLabsは、話された対話をテキスト形式に変換するビデオの文字起こしを提供しており、字幕やキャプション、検索可能なトランスクリプトの作成を容易にします。 動画をテキストに変換する手順: 1.ElevenLabs ASRに動画ファイルをアップロードします 2.音声認識技術で音声を処理しいます 3.トランスクリプトは自動的に生成され、タイムスタンプが付けられます。 4.テキストファイルをダウンロードするか、字幕をエクスポートして編集します。 このAI搭載のビデオ文字起こしモデルは、コンテンツ制作者、企業、教育者がビデオの音声を迅速に正確なテキストに変換し、アクセシビリティやコンテンツの再利用をサポートします。

Scribe は現在、入力音声が事前に利用可能なユースケースでうまく機能します。低遅延のリアルタイムバージョンがまもなくリリースされます。

文字起こしされたオーディオ1時間あたり$0.40から、エンタープライズプランでは大規模でさらに低価格。

最近のスピーチ to テキストガイド & ハウツー

リソース
A close-up of a professional microphone in a recording studio with audio equipment in the background.

Best Speech to Text Apps 2025

プロダクト
Introducing iScribe v1, the world's most accurate speech-to-text model.

ScribeとOpenAIの4o Speech to Textモデルの比較

著者
ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン