Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
OpenAI ha iniciado la expansión del acceso a su Modo de Voz Avanzado (AVM, por sus siglas en inglés) de ChatGPT, una función que promete hacer las interacciones con el modelo de inteligencia artificial más fluidas y naturales.
Esta actualización, inicialmente reservada para un pequeño grupo de prueba y una lista de espera, ahora se encuentra disponible para todos los suscriptores de los planes Plus y Teams en Estados Unidos, con planes de extenderla a usuarios empresariales y educativos en la próxima semana .
Características del Modo de Voz Avanzado
El Modo de Voz Avanzado introduce una serie de características que buscan acercar la experiencia de usuario a una conversación más humanizada y personalizada. Entre las principales innovaciones se encuentra la posibilidad de interrumpir las respuestas del modelo en tiempo real utilizando comandos de voz, algo que no era posible con el modo de voz estándar .
Además, el modelo ahora tiene la capacidad de interpretar emociones basadas en el tono de voz del usuario, ajustando sus respuestas en consecuencia .
La nueva función también cuenta con una interfaz rediseñada representada por una esfera azul animada, que sustituye a los puntos negros utilizados en versiones anteriores, lo que añade un elemento visual más moderno y atractivo . Este rediseño es una parte de la estrategia de OpenAI para hacer que la interacción con el asistente de inteligencia artificial sea más intuitiva y accesible.
Ampliación del acceso y nuevas voces
El despliegue del Modo de Voz Avanzado se llevará a cabo de forma gradual, comenzando con los usuarios de los planes Plus y Teams en Estados Unidos, y ampliándose posteriormente a usuarios empresariales y educativos. Sin embargo, existen limitaciones geográficas: el servicio no estará disponible inicialmente en la Unión Europea, el Reino Unido, Suiza, Islandia, Noruega ni Liechtenstein .
Como parte de esta actualización, OpenAI ha añadido cinco nuevas voces al repertorio de ChatGPT, que se suman a las cuatro ya existentes. Las nuevas incorporaciones, denominadas Arbor, Maple, Sol, Spruce y Vale, han sido seleccionadas tras entrevistar a actores de voz de todo el mundo para encontrar las cualidades que los usuarios podrían disfrutar durante horas de interacción . Los nombres de estas voces, inspirados en la naturaleza, reflejan el objetivo de AVM de hacer que el uso de ChatGPT sea lo más natural posible .
Funcionalidades de personalización y memoria
Además del modo de voz mejorado, OpenAI ha introducido funciones de personalización avanzadas, como las instrucciones personalizadas y la memoria de usuario. Estas características, ya presentes en la versión de texto de ChatGPT, permiten que el asistente recuerde preferencias y comportamientos del usuario a lo largo de las conversaciones. Esto significa que los usuarios pueden entrenar a ChatGPT para que responda de manera más adecuada a sus necesidades individuales, mejorando la coherencia y la utilidad de las interacciones .
Retos y controversias
La implementación del Modo de Voz Avanzado no ha estado exenta de desafíos. OpenAI ha tenido que lidiar con preocupaciones sobre la seguridad y la ética de la replicación de voces. Un incidente notable fue la retirada de la voz “Sky” tras una demanda legal de Scarlett Johansson, quien afirmó que la voz se asemejaba demasiado a la suya en la película “Her” . Aunque OpenAI negó la intención de imitar a la actriz, este caso puso de manifiesto los dilemas éticos en la creación de voces sintéticas que puedan confundirse con voces reales reconocibles.
Otro desafío ha sido garantizar la seguridad y la prevención del uso indebido del Modo de Voz Avanzado. OpenAI ha realizado pruebas con expertos externos que hablan 45 idiomas y representan 29 geografías diferentes para asegurar la robustez del sistema frente a posibles vulnerabilidades . Sin embargo, la naturaleza de código cerrado de los modelos de OpenAI limita la evaluación independiente por parte de investigadores externos, un aspecto que ha generado críticas en la comunidad académica y de seguridad .
Competencia en el mercado de asistentes de voz
La expansión del Modo de Voz Avanzado de OpenAI llega en un momento de creciente competencia en el mercado de asistentes de voz basados en inteligencia artificial. Empresas como Google y Meta también han hecho avances significativos en la implementación de capacidades de voz en sus propios sistemas de IA. Google, por ejemplo, ha añadido voces a su chatbot Gemini a través de Gemini Live, mientras que Meta está desarrollando voces que imitan a actores populares para su plataforma Meta AI .
Además, startups como Hume AI, con su Interfaz de Voz Empática, y Kyutai, con el asistente de voz Moshi, están explorando nuevas fronteras en la interacción vocal con IA, enfocándose en la capacidad de detectar y responder a emociones humanas . Estas innovaciones subrayan el interés creciente en la creación de asistentes virtuales que no solo comprendan el lenguaje, sino que también respondan de manera empática y contextualmente relevante.
Futuro y perspectivas
Con el lanzamiento del Modo de Voz Avanzado, OpenAI busca consolidarse como un líder en la interacción vocal con inteligencia artificial. Aunque la empresa aún enfrenta desafíos en términos de seguridad, ética y disponibilidad geográfica, la expansión de esta funcionalidad es un paso significativo hacia la creación de experiencias de usuario más inmersivas y personalizadas.
El éxito de este modo dependerá en gran medida de la capacidad de OpenAI para gestionar las preocupaciones regulatorias y éticas, así como de su habilidad para diferenciarse en un mercado cada vez más competitivo. Si logra superar estos obstáculos, el Modo de Voz Avanzado podría convertirse en una herramienta clave para la adopción masiva de asistentes de IA en diversas industrias y contextos.