ScribeとOpenAIの4o Speech to Textモデルの比較

発売から1か月、Scribeは業界で最も進んだスピーチ to テキストモデルであることを証明し続けています。

提供開始からわずか1か月で、私たちの音声テキスト変換(Speech to Text) モデル Scribeは、その業界最高水準の精度によって何千もの企業を魅了しました。メディアの字幕付けからコールセンター、医療用の文字起こしまで、Scribeは急速に開発者の間で選ばれるモデルとなっています。

業界最高水準のパフォーマンス

複数の第三者分析により、Scribeがすべてのモデルを上回り、OpenAIの新しい4oトランスクライブモデルを含むすべてのモデルを上回ることが確認されました。例えば、Artificial Analysisのベンチマークでは、Scribeが4oおよび4o miniトランスクリプトよりも平均してWord Error Rateで優れていることが示されています。

  • 4oトランスクライブはScribeより16%多くエラーを出します
  • 4o miniトランスクライブはScribeより71%多く誤りを犯します
Third party speech to text benchmark from Artificial Analysis
Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribeは、OpenAIの独自のローンチベンチマークでも、4oおよび4o miniトランスクリプションモデルと同等かそれ以上の性能を発揮し、テストされた15言語のうち11言語で優れています。例えば、日本語とヒンディー語では、OpenAIの4oモデルよりも大幅に優れています。

  • 日本語では、OpenAIの4oスピーチ to テキストモデルがScribeより55%多く誤りを犯し、4o miniモデルでは105%多く誤りを犯します
    • OpenAIの4oスピーチ to テキストモデルはScribeより55%多くエラーを出します
    • 彼らの4o miniモデルはScribeより105%多くエラーを出します
  • ヒンディー語:
    • OpenAIの4oスピーチ to テキストモデルはScribeより18%多くエラーを出します
    • 彼らの4o miniモデルはScribeより37%多くエラーを出します

Scribeでは、顧客にとって可能な限り有用であるように決定を行いましたが、それが業界ベンチマークにおける不一致を生むこともあります。例えば:

  1. Scribeは数字を「one」「two」「three」としてキャプチャしますが、FLEURSベンチマークでは実際の数字「1」「2」「3」を使用するため、エラーが発生します
  2. Scribeは「hum」「ha」「hey」といった言葉を検出でき、顧客にとってより多くのコンテキストを得るのに役立ちますが、これらの言葉はベンチマークに含まれていないため、再び人工的なエラーが発生します

そのため、パフォーマンスを考える際には最終的な結果を見ることが重要です。例えば、英語においては、OpenAIの4o Speech to Textモデルはベンチマーク上ではScribeと同程度のパフォーマンスを持っています。しかし、英語の書き起こしを比較すると、Scribeの高度な機能が際立っていることがよく分かります。

トランスクリプトの比較

この 英国議会公聴会の書き起こし分析では、Scribeがアクセントやさまざまな声のトーンを正確に捉え、背景の雑音や笑い声を適切にラベリングしながら、一切ミスをしないことが分かります。

ElevenLabsのScribe (トランスクリプト作成に要した時間:4.66秒)

Can I ask the honorable gentleman what work is being done to make sure this place is more accessible, particularly for some of our colleagues who have a disability? Hear, hear. (crowd murmuring) I'm sorry, it must be something to do with my Antipodean background. Could he please repeat the question, because I didn't follow it? (crowd laughing) Wow. Oh, wow. Very popular today. Um, I- I was saying that- that a number of parliamentary colleagues who have disabilities do find it quite difficult getting around certain parts of the estate. Given that we're doing this refurbishment work, what can be done to make sure that those with a disability are able to move around more freely and the place is accessible? Mr. Paul. (crowd laughing) I'm really sorry. Please could he do it very slowly in Antipodean English? Thank you. Just give any old answer. I- I think the answer... I think the answer might be helped if you can reply in writing when you read, Mr. Speaker. Right, Chris Elmore. (laughs) Thank you, Mr. Deputy Speaker, I- I'll try it on the first go. (crowd murmuring) Oh, no. You're Welsh. Can I- can I- can I- 'cause I'm Welsh, so God help him.

OpenAIの4o (トランスクリプト作成時間:5.01秒)

Can I ask the hon. Gentleman what work is being done to ensure that this place is more accessible, particularly for some of our colleagues who have a disability? Sorry, it must be something to do with my Antipodean background. Could he please repeat the question, because I didn't follow it? Well, very popular today. I'm seeing that a number of parliamentary colleagues who have disabilities do find it quite difficult getting around certain parts of the estate. Given that we're doing this refurbishment work, what can be done to ensure that those with a disability are able to move around more freely and the place is accessible? I'm really sorry. Please, could you do it very slowly in Antipodean English? I think the answer might be helped if you can reply in writing when you'll read it. Thank you, Mr Deputy Speaker. I'll try it on the first go. Because I'm Welsh, so God help him.

吃音のある話し言葉の書き起こしによるアクセシビリティ

AIの進化のたびに、大きな恩恵を受けるにもかかわらず見過ごされがちなグループがいます。それは、吃音のある人々です。吃音は遺伝的な発話障害であり、人口の約1%に影響を及ぼします。これは、自動音声認識(ASR)システムにとって特有の課題をもたらします。

吃音が約4語に1語の割合で発生するテストサンプルを用いた研究では、Scribeのパフォーマンスは特に優れており、平均98.7%の精度を達成しました。これは、Scribeが業界をリードし、あらゆる企業ニーズに対応したモデルを提供していることを改めて証明するものです。

企業向けソリューション

Scribeのパフォーマンスは、企業顧客のニーズを解決するために最適化された機能セットによって真価を発揮します。

  • 精密な単語レベルのタイムスタンプにより、クリエイターやメディア・エンターテインメント業界にとって大きな価値を提供します。これにより、書き起こしデータをキャプションや検索可能なエントリー、正確な翻訳に活用できます。
  • スマートな話者識別機能により、会議や営業プレゼン、カスタマーサポートの通話を要約し、より正確で実用的なインサイトを得ることが可能になります。これにより、チーム内のコラボレーションやトレーニングが向上します。
  • ダイナミックな音声タグ付けにより、音声データのコンテンツや文脈をより詳細に把握でき、例えば感情分析の実施が可能になります。
  • 99の言語に対応しており、単一の統合でグローバルな市場へ簡単にリーチできます。

これらすべての機能はAPIで提供されており、開発者は妥協なく自由に活用できます。

さらに、Scribeのリアルタイムストリーミング版低遅延版も今後数週間以内に提供予定です。これにより、Scribeは史上最も高度な音声認識モデルとしての地位を確立し、あらゆるビジネスユースケースに対応。スピード、コスト、精度のバランスを柔軟に選択できるようになります。

いますぐ始めてみましょう

ぜひScribeをお試しください!当社のWeb版は4月9日まで無料でご利用いただけます。Scribeの料金は非常に競争力があり、企業向けプランは1時間あたり$0.22からご利用いただけます。

ご興味がございましたら、お気軽に営業チームにお問い合わせください。デモのご案内をさせていただき、貴社のビジネスにどのように貢献できるかをご紹介いたします。

もっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン