Comparativa de Scribe con el modelo Speech to Text 4o de OpenAI

Última actualización 14 mar 2026 • 5 minutos de lectura

A smiling man with wavy hair and a beard, wearing a denim shirt, in black and white.

Un mes después de su lanzamiento, Scribe sigue demostrando que es el modelo de texto a voz más avanzado del sector.

Introducing iScribe v1, the world's most accurate speech-to-text model.

Descubre más Contacta con ventas Pruébalo gratis

En solo un mes desde el lanzamiento, nuestro modelo de texto a voz Scribe ha atraído a miles de empresas gracias a su precisión líder en el sector. Desde subtítulos para medios hasta centros de llamadas y transcripciones médicas, Scribe se ha convertido rápidamente en el modelo preferido por desarrolladores.

Rendimiento líder en el sector

Varios análisis independientes han confirmado nuestros propios resultados de precisión, con Scribe superando a todos los modelos, incluidos los nuevos modelos de transcripción 4o de OpenAI. Por ejemplo, un benchmark de Análisis artificial muestra que Scribe supera tanto a 4o como a 4o mini en tasa de error de palabras, de media:

4o transcribe comete un 16% más de errores que Scribe
4o mini transcribe comete un 71% más de errores que Scribe

Third party speech to text benchmark from Artificial Analysis shows Scribe is the best model

Scribe también supera o iguala a los modelos de transcripción 4o y 4o mini en el propio benchmark de lanzamiento de OpenAI, en 11 de los 15 idiomas que probaron. Por ejemplo, en japonés e hindi, Scribe es claramente mejor que ambos modelos 4o de OpenAI, según sus propios benchmarks:

En japonés, el modelo Speech to Text 4o de OpenAI comete un 55% más de errores que Scribe, y su modelo 4o mini un 105% más
En hindi, el modelo Speech to Text 4o de OpenAI comete un 18% más de errores que Scribe, y su modelo 4o mini un 37% más

Con Scribe hemos tomado decisiones para que sea lo más útil posible para los clientes, aunque eso pueda generar diferencias en los benchmarks del sector. Por ejemplo:

Scribe transcribe los números como “uno” “dos” “tres”, lo que es más útil para las transcripciones, pero el benchmark FLEURS usa los números “1”, “2”, “3”, lo que genera errores artificiales
Scribe detecta palabras como “eh” “ajá” “oye”, otra función útil para dar más contexto, pero estas palabras no se incluyen en los benchmarks, lo que vuelve a crear errores artificiales

Por eso es útil fijarse en los resultados finales al valorar el rendimiento. Por ejemplo, en inglés, el modelo Speech to Text 4o de OpenAI tiene un rendimiento similar a Scribe en los benchmarks. Sin embargo, comparar transcripciones en inglés deja claro el nivel avanzado de Scribe.

Comparativa de transcripciones

En este análisis de transcripción de una sesión parlamentaria del Reino Unido, puedes ver cómo Scribe no comete errores y capta correctamente los acentos, los diferentes tonos de voz y etiqueta bien el ruido de fondo y las risas.

Scribe de ElevenLabs (Tiempo de transcripción: 4,66s)

¿Puedo preguntar al honorable caballero qué se está haciendo para que este lugar sea más accesible, especialmente para algunos de nuestros compañeros con discapacidad?Muy bien. (murmullos del público) Lo siento, debe de ser por mi acento antípoda. ¿Podría repetir la pregunta, por favor? No la he entendido.(risas del público) Vaya. Oh, vaya. Hoy muy popular. Eh, decía que- que varios compañeros parlamentarios con discapacidad tienen bastantes dificultades para moverse por algunas zonas del edificio. Ya que estamos haciendo estas reformas, ¿qué se puede hacer para que quienes tienen discapacidad puedan moverse con más facilidad y el lugar sea accesible?Sr. Paul. (risas del público) Lo siento mucho. ¿Podría hacerlo muy despacio en inglés antípoda? Gracias. Da igual la respuesta. Creo que la respuesta... creo que la respuesta podría ser más clara si puedes responder por escrito cuando lo leas, Sr. Presidente. Bien, Chris Elmore. (ríe) Gracias, Sr. Vicepresidente, intentaré hacerlo a la primera.(murmullos del público) Oh, no. Eres galés. ¿Puedo- puedo- puedo- porque soy galés, así que que Dios le ayude.

4o de OpenAI (Tiempo de transcripción: 5,01s)

¿Puedo preguntar al honorable caballero qué se está haciendo para garantizar que este lugar sea más accesible, especialmente para algunos de nuestros compañeros con discapacidad?Lo siento, debe de ser por mi acento antípoda. ¿Podría repetir la pregunta, por favor? No la he entendido.Bueno, hoy muy popular. Veo que varios compañeros parlamentarios con discapacidad tienen bastantes dificultades para moverse por algunas zonas del edificio. Ya que estamos haciendo estas reformas, ¿qué se puede hacer para garantizar que quienes tienen discapacidad puedan moverse con más facilidad y el lugar sea accesible?Lo siento mucho. ¿Podrías hacerlo muy despacio en inglés antípoda?Creo que la respuesta podría ser más clara si puedes responder por escrito cuando lo leas.Gracias, Sr. Vicepresidente. Intentaré hacerlo a la primera.Porque soy galés, así que que Dios le ayude.

Accesibilidad con transcripción de tartamudez

Con cada avance en IA, un grupo a menudo olvidado puede beneficiarse enormemente: personas que tartamudean. La tartamudez, un trastorno genético del habla que afecta a aproximadamente el 1% de la población, supone retos únicos para los sistemas automáticos de reconocimiento de voz (ASR). En un estudio con muestras de prueba donde la tartamudez aparecía en casi una de cada cuatro palabras, el rendimiento de Scribe es especialmente impresionante, con una precisión media del 98,7%. Esto demuestra una vez más que Scribe lidera el sector y ofrece un modelo adaptado a cualquier necesidad empresarial.

Soluciones para empresas

El rendimiento de Scribe destaca gracias a sus funciones pensadas para resolver las necesidades de clientes empresariales.

Tiempos precisos a nivel de palabra aportan un gran valor a creadores, medios y entretenimiento, convirtiendo tus transcripciones en subtítulos, entradas buscables y traducciones precisas
La diarización inteligente de hablantes te permite resumir reuniones, presentaciones de ventas o llamadas de soporte para obtener los análisis más precisos y útiles, y mejorar la colaboración y formación en tu equipo
El etiquetado dinámico de audio te da más contenido y contexto a partir de tu audio, permitiendo por ejemplo análisis de sentimiento
Compatible con 99 idiomas, llega fácilmente a todo el mundo con una sola integración
Todas estas funciones están disponibles en nuestra API, para que desarrolladores puedan crear sin limitaciones
También estamos preparando una versión de Scribe en streaming en tiempo real y otra de baja latencia para las próximas semanas. Esto consolidará a Scribe como el modelo de texto a voz más avanzado creado hasta ahora, cubriendo todos los casos de uso de tu negocio y dándote más opciones y flexibilidad entre velocidad, precio y precisión.

Empieza hoy mismo

Prueba Scribe hoy, nuestro producto web es gratis hasta el 9 de abril. El precio de Scribe es muy competitivo, desde 0,22 $/hora para empresas. Si quieres, contacta con nuestro equipo de ventas, estaremos encantados de organizar una demo y enseñarte cómo podemos ayudar a tu empresa.

Descubre artículos del equipo de ElevenLabs

ElevenLabs vs LiveKit: Full-stack voice AI or open-source framework?

ElevenAgents Stories

Beam improves access to social services with ElevenAgents

Frontline teams save 20% of their time and phone staff cut workload in half.

Crea con el audio IA de la más alta calidad

Contacta con Ventas Regístrate