OpenAI lanza GPT-4o-transcribe para transcripción y voz por API

OpenAI presenta GPT-4o-transcribe y nuevos modelos de voz para desarrolladores vía API, con menor tasa de error y opciones de personalización avanzadas.

OpenAI amplía su oferta de voz con nuevos modelos GPT-4o para transcripción y síntesis

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

OpenAI ha presentado tres nuevos modelos de inteligencia artificial especializados en voz: gpt-4o-transcribe, gpt-4o-mini-transcribe y gpt-4o-mini-tts . Estas versiones, derivadas del modelo base GPT-4o lanzado en mayo de 2024, han sido postentrenadas para optimizar tareas de transcripción, síntesis de voz y personalización vocal.

Su disponibilidad inicial será a través de la API para desarrolladores externos y mediante el sitio experimental OpenAI.fm, donde los usuarios pueden realizar pruebas limitadas.

La palabra clave principal es gpt-4o-transcribe, presente en las primeras líneas del texto y que articula el eje de desarrollo del contenido.

Audio Models in the API

Ver este vídeo en YouTube.

Nuevas funcionalidades de voz en el ecosistema GPT-4o

Estos nuevos modelos están diseñados para suplantar a Whisper, la solución de código abierto que OpenAI lanzó hace dos años. Según la empresa, gpt-4o-transcribe ofrece tasas de error inferiores en múltiples idiomas y contextos complejos, como entornos ruidosos, acentos diversos o velocidades de habla elevadas. En inglés, por ejemplo, se reporta una tasa de error del 2,46 %, notablemente inferior a su predecesor.

Jeff Harris, miembro del equipo técnico de OpenAI, explicó en una demostración que los modelos integran funciones como cancelación de ruido y detección semántica de actividad vocal, lo que mejora la precisión en la transcripción al identificar con mayor exactitud cuándo un hablante ha terminado de expresarse.

Limitaciones actuales y diferencias frente a la competencia

A diferencia de soluciones como Scribe de ElevenLabs, que sí incorpora diarización —la capacidad de distinguir distintos interlocutores en una misma grabación—, los nuevos modelos de OpenAI procesan el audio como una única fuente de entrada. Esta limitación podría restringir su uso en ciertos escenarios empresariales, aunque la compañía prioriza, por ahora, la integración fluida con aplicaciones ya existentes a través de su API.

En términos de competencia, empresas como Hume AI y su modelo Octave TTS ya ofrecen personalización emocional por palabra o frase sin depender de voces preconfiguradas, mientras que modelos de código abierto como Orpheus 3B se posicionan como alternativa gratuita bajo licencia Apache 2.0, a cambio de contar con infraestructura propia.

Costes y condiciones de uso

Los precios publicados para acceder a los nuevos modelos mediante la API son los siguientes:

gpt-4o-transcribe: 6,00 USD por millón de tokens de entrada de audio (~0,006 USD/minuto).
gpt-4o-mini-transcribe: 3,00 USD por millón de tokens (~0,003 USD/minuto).
gpt-4o-mini-tts: 0,60 USD por millón de tokens de texto de entrada, 12,00 USD por millón de tokens de audio de salida (~0,015 USD/minuto).

Este posicionamiento mantiene la competitividad frente a modelos como Scribe, cuyo coste ronda también los 0,006 USD por minuto de audio.

Casos de uso: de centros de llamadas a asistentes conversacionales

El abanico de aplicaciones abarca desde la transcripción automatizada de reuniones hasta su incorporación en agentes conversacionales en tiempo real. Durante la presentación, Harris destacó la nueva función de transcripción en streaming, que permite procesar audio de forma continua con respuesta inmediata en texto, mejorando la fluidez en las interacciones.

Te puede interesar

Google DeepMind lanza Gemini Robotics para robots autónomos

La compañía también lanzó un Agents SDK, que permite a desarrolladores integrar capacidades de voz en aplicaciones preexistentes con tan solo nueve líneas de código. Esto facilita, por ejemplo, que plataformas de comercio electrónico puedan responder en voz a solicitudes como “¿Cuáles fueron mis últimos pedidos?”, sin rediseñar completamente su arquitectura.

Adopción temprana en el sector empresarial

Varias compañías han comenzado ya a integrar los nuevos modelos. EliseAI, centrada en automatización de servicios de gestión inmobiliaria, destacó mejoras en la interacción con inquilinos gracias a voces más expresivas. Por su parte, Decagon, desarrolladora de asistentes de voz, reportó un incremento del 30 % en precisión de transcripción, lo que se traduce en mayor fiabilidad operativa en entornos ruidosos.

La integración, según Decagon, se realizó en menos de un día, lo que subraya el enfoque de OpenAI en facilitar la adopción con mínima fricción técnica.

Retos y reacciones críticas

Pese a las mejoras, algunos desarrolladores han cuestionado el enfoque. Ben Hylak, cofundador de la app Dawn AI y exdiseñador de Apple, sugirió en X que el lanzamiento supone un “retroceso respecto a la voz en tiempo real” en favor de experiencias más asincrónicas, lo que podría contradecir las expectativas generadas por anteriores versiones de ChatGPT.

Además, la presentación fue precedida por una filtración en X por parte del perfil TestingCatalog News, que adelantó los nombres de los nuevos modelos minutos antes del anuncio oficial, atribuyendo la información al usuario @StivenTheDev.

Desarrollo futuro y ampliación multimodal

OpenAI ha confirmado su intención de seguir desarrollando capacidades personalizables de voz, incluyendo ajustes emocionales y características vocales específicas mediante instrucciones de texto. Paralelamente, la empresa continúa invirtiendo en modelos multimodales que integren texto, voz, imagen y vídeo, con el objetivo de facilitar interacciones más dinámicas y naturales entre usuarios y agentes inteligentes.

Aunque todavía no hay fecha anunciada para su implementación dentro de ChatGPT, la empresa ha indicado que las particularidades de coste y rendimiento de la plataforma general requieren una estrategia diferenciada respecto al uso de API.

Etiquetas

gpt-4o inteligencia artificial openai transcripción