Porównanie Scribe z modelem OpenAI 4o Speech to Text

Miesiąc po premierze, Scribe wciąż udowadnia, że jest najbardziej zaawansowanym modelem zamiany mowy na tekst w branży.

W zaledwie miesiąc od premiery nasz model zamiany mowy na tekst Scribe przyciągnął tysiące firm dzięki swojej wiodącej w branży dokładności. Od napisów w mediach po centra telefoniczne i transkrypcje medyczne, Scribe szybko stał się modelem wybieranym przez deweloperów.

Wiodąca wydajność w branży

Wiele analiz zewnętrznych potwierdziło nasze własne wyniki dokładności, gdzie Scribe przewyższa wszystkie modele, w tym nowe modele transkrypcji 4o od OpenAI. Na przykład, analiza od Artificial Analysis pokazuje, że Scribe przewyższa zarówno 4o, jak i 4o mini w zakresie Word Error Rate, średnio:

  • 4o transcribe popełnia 16% więcej błędów niż Scribe
  • 4o mini transcribe popełnia 71% więcej błędów niż Scribe

WSTAW WYKRES

Scribe również przewyższa lub dorównuje modelom transkrypcji 4o i 4o mini w benchmarku OpenAI, dla 11 z 15 testowanych języków. Patrząc na japoński i hindi, Scribe jest lepszy od obu modeli 4o OpenAI o znaczące różnice, w benchmarkach OpenAI:

  • W języku japońskim model OpenAI 4o zamiany mowy na tekst popełnia 55% więcej błędów niż Scribe, a ich model 4o mini 105% więcej błędów
    • Model zamiany mowy na tekst 4o OpenAI popełnia 55% więcej błędów niż Scribe
    • Ich model 4o mini popełnia 105% więcej błędów niż Scribe
  • Hindi:
    • Model zamiany mowy na tekst 4o OpenAI popełnia 18% więcej błędów niż Scribe
    • Ich model 4o mini popełnia 37% więcej błędów niż Scribe

Podjęliśmy decyzje z Scribe, aby był jak najbardziej użyteczny dla klientów, nawet jeśli może to tworzyć niespójności w benchmarkach branżowych. Na przykład:

  1. Scribe zapisuje liczby jako „jeden” „dwa” „trzy”, co jest bardziej przydatne dla transkrypcji, jednak benchmark FLEURS używa rzeczywistych liczb „1”, „2”, „3”, co tworzy błędy
  2. Scribe potrafi wykrywać słowa takie jak „hmm” „ha” „hej”, co jest kolejną przydatną funkcją dla klientów, aby uzyskać więcej kontekstu, ale te słowa nie są częścią benchmarków, co ponownie tworzy sztuczne błędy

Dlatego warto spojrzeć na ostateczne wyniki, myśląc o wydajności. Na przykład, w języku angielskim model zamiany mowy na tekst 4o OpenAI ma podobną wydajność jak Scribe w benchmarkach. Jednak porównanie transkrypcji angielskich naprawdę podkreśla zaawansowane możliwości Scribe. W poniższej analizie komentatorów sportowych, Scribe nie popełnia błędów i prawidłowo uchwyca znaczenia.House of Dragons zwiastuna od HBO, Scribe nie popełnia błędów, wychwytuje efekty dźwiękowe i poprawnie je oznacza, tworząc immersyjną transkrypcję.

Dziennikarze komentują niezapomniane zagrania Messiego

 / 

Scribe od ElevenLabs

Messi jest tutaj! Na to czekali. Messi. Messi! Co? Żartujesz sobie? Dzieło sztuki. Ten człowiek jest absolutnie głównym źródłem czystej magii piłkarskiej. Alba w środku. To Messi! O nie! Nie! Znowu, przybywa medyk i wbija swoją płonącą włócznię.

OpenAI 4o

Chaos Messiego! Na to czekali! Messi! Żartujesz sobie?! Ten człowiek jest absolutnie szalony, jak czysta magia piłkarska! Alba w środku, to Messi! Znowu! Przybywa medyk i

Posiedzenie parlamentu UKbrytyjskie przesłuchanie parlamentarne Ludzie z King's Landing słuchają. Są głodni. Nasz dar jest wysłany. Daj mi to! Wasze Wysokości, musimy odejść. Chodźmy.

Rozwiązania dla przedsiębiorstw

Z każdym postępem w AI, często pomijana grupa może zyskać ogromnie: osoby jąkające się. Jąkanie, genetyczne zaburzenie mowy, które dotyka około 1% populacji, stawia unikalne wyzwania dla systemów automatycznego rozpoznawania mowy (ASR). W badaniu z próbkami testowymi, gdzie jąkanie występowało w prawie co czwartym słowie, wydajność Scribe jest szczególnie imponująca z dokładnością na poziomie 98,7% średnio. To ponownie dowodzi, że Scribe prowadzi w branży i oferuje model dostosowany do wszystkich potrzeb przedsiębiorstw. (Czas tworzenia transkrypcji: 4.66s)Słusznie. (szum tłumu) Przepraszam, to musi mieć coś wspólnego z moim antypodowym pochodzeniem. Czy mógłby powtórzyć pytanie, bo go nie zrozumiałem?(śmiech tłumu) Wow. Och, wow. Bardzo popularny dzisiaj. Um, ja- ja mówiłem, że- że wielu parlamentarzystów, którzy mają niepełnosprawności, ma trudności z poruszaniem się po niektórych częściach posiadłości. Biorąc pod uwagę, że prowadzimy te prace remontowe, co można zrobić, aby upewnić się, że osoby z niepełnosprawnościami mogą poruszać się swobodniej i miejsce jest dostępne?Pan Paul. (śmiech tłumu) Naprawdę przepraszam. Czy mógłby to zrobić bardzo powoli w antypodowym angielskim? Dziękuję. Po prostu daj jakąkolwiek odpowiedź. Ja- ja myślę, że odpowiedź... Myślę, że odpowiedź może być pomocna jeśli możesz odpowiedzieć na piśmiekiedy przeczytasz, panie Marszałku. Dobrze, Chris Elmore. (śmiech) Dziękuję, panie wicemarszałku, spróbuję za pierwszym razem.(szum tłumu) Och, nie. Jesteś Walijczykiem. Czy mogę- czy mogę- czy mogę- bo jestem Walijczykiem, więc niech Bóg mu pomoże.

Czy mogę zapytać szanownego pana

Zacznij już dziś (Czas tworzenia transkrypcji: 5,01s)Przepraszam, to musi mieć coś wspólnego z moim antypodowym pochodzeniem. Czy mógłby powtórzyć pytanie, bo go nie zrozumiałem?Cóż, bardzo popularny dzisiaj. Widzę, że wielu parlamentarzystów, którzy mają niepełnosprawności, ma trudności z poruszaniem się po niektórych częściach posiadłości. Biorąc pod uwagę, że prowadzimy te prace remontowe, co można zrobić, aby upewnić się, że osoby z niepełnosprawnościami mogą poruszać się swobodniej i miejsce jest dostępne?Naprawdę przepraszam. Czy mógłby to zrobić bardzo powoli w antypodowym angielskim?Myślę, że odpowiedź może być pomocna jeśli możesz odpowiedzieć na piśmiekiedy to przeczytasz. Dziękuję, Panie Wicemarszałku. Spróbuję za pierwszym razem. Ponieważ jestem Walijczykiem, więc niech Bóg mu pomoże.

Czy mogę zapytać szanownego pana

Czy mogę zapytać szanownego pana

  • Dokładne znaczniki czasowe na poziomie światowym otwierają ogromną wartość dla Twórców, Mediów i Rozrywki, zamieniając twoje transkrypcje w napisy, przeszukiwalne wpisy i precyzyjne tłumaczenia
  • Inteligentna diarizacja mówców pozwala na podsumowanie spotkań, prezentacji sprzedażowych lub rozmów z obsługą klienta, aby uzyskać najdokładniejsze i najbardziej użyteczne wnioski oraz zwiększyć współpracę i szkolenia w twoim zespole
  • Dynamiczne tagowanie audio daje więcej treści i kontekstu z twojego wejścia audio, umożliwiając na przykład analizę sentymentu
  • Wsparcie dla 99 języków, łatwo dotrzyj do świata dzięki jednej integracji
  • Wszystkie te funkcje są dostępne w naszym API, pozwalając deweloperom budować bez kompromisów
  • Wersja Scribe do strumieniowania w czasie rzeczywistym, wraz z wersją o niskim opóźnieniu, jest również planowana na nadchodzące tygodnie. To umocni Scribe jako najbardziej zaawansowany model zamiany mowy na tekst, jaki kiedykolwiek stworzono, obejmując wszystkie twoje przypadki użycia biznesowego i dając ci więcej wyboru i elastyczności między szybkością, ceną a dokładnością.

Rozwiązania dla przedsiębiorstw

Wydajność Scribe ożywa dzięki zestawowi funkcji dostosowanych do rozwiązywania potrzeb klientów korporacyjnych.naszym zespołem sprzedaży, chętnie zorganizujemy demo i pokażemy, jak możemy pomóc twojej firmie.

Zobacz więcej

ElevenLabs

Twórz z najwyższą jakością dźwięku AI