GPT-4o incorpora generación de imágenes en todos los niveles de ChatGPT

OpenAI activa la generación de imágenes en GPT-4o para usuarios de ChatGPT, integrando texto e imagen en una única herramienta con acceso desde todos los planes.

OpenAI integra generación de imágenes nativa en GPT-4o y la extiende a todos los niveles de ChatGPT

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

OpenAI ha anunciado la disponibilidad general de la generación de imágenes en su modelo GPT-4o, que ahora se integra como función nativa para todos los usuarios de ChatGPT, incluyendo los niveles Plus, Pro, Team y Free. Esta funcionalidad, que estará disponible próximamente también en ChatGPT Enterprise y ChatGPT Edu, sustituye a herramientas anteriores como DALL·E dentro del ecosistema de OpenAI y se incorpora además en Sora. La generación de imágenes podrá realizarse directamente desde el chat, utilizando texto, imágenes o archivos cargados como entrada.

Según ha informado la compañía, GPT-4o emplea un modelo multimodal autorregresivo que vincula texto e imagen de manera integrada, con la capacidad de generar imágenes a partir de una amplia variedad de descripciones detalladas.

GPT-4o: generación de imágenes con contexto conversacional

La generación de imágenes en GPT-4o no solo responde a comandos escritos, sino que puede utilizar elementos contextuales de una conversación previa para mantener coherencia visual entre iteraciones. Esta capacidad de refinamiento conversacional incluye la edición progresiva de elementos visuales, como el diseño de un personaje o la personalización de un espacio, basándose en imágenes proporcionadas por el usuario o en temas discutidos anteriormente.

La herramienta también mejora el seguimiento de instrucciones complejas. Según OpenAI, puede gestionar entre 10 y 20 objetos distintos por imagen, superando el rendimiento de modelos anteriores, lo que permite representar relaciones entre elementos con mayor fidelidad y coherencia semántica.

Casos de uso: imágenes con contenido textual, técnico y fotográfico

La funcionalidad cubre una gama diversa de usos prácticos. Se han optimizado procesos clave como la representación precisa de texto dentro de imágenes, la generación de diagramas técnicos y la creación de recursos visuales con un alto nivel de personalización. Algunos ejemplos destacados incluyen:

Carteles informativos y tarjetas de presentación con tipografía editable.
Infografías técnicas con códigos de color específicos (hexadecimales).
Logotipos, gráficos promocionales o materiales para redes sociales.
Edición de imágenes de mascotas o retratos personalizados.
Fotografías con acabado fotorrealista, ajustadas en sombras, iluminación y texturas.
Visualización de contenido educativo o histórico a partir del contexto del chat.

Asimismo, se ha incorporado la capacidad de utilizar imágenes cargadas por el usuario como punto de partida, lo que permite personalizar o transformar elementos concretos dentro de una imagen existente.

Modelo unificado y entrenamiento conjunto texto-imagen

GPT-4o ha sido entrenado mediante una estrategia de aprendizaje en la que se ha optimizado la comprensión simultánea del lenguaje natural y la estructura visual. A diferencia de los modelos generativos tradicionales, el nuevo sistema integra el aprendizaje de relaciones entre imágenes, textos y contextos compartidos, lo que se traduce en mayor fluidez visual y coherencia semántica.

Esta aproximación permite generar imágenes con mayor precisión contextual, empleando conocimientos enciclopédicos internos del modelo. Además, GPT-4o aplica técnicas de in-context learning para extraer información directamente de las imágenes proporcionadas por los usuarios, incorporando sus detalles visuales al resultado final.

Te puede interesar

Paco Salcedo, presidente de Microsoft España

Microsoft anuncia una segunda región cloud en España con 10.000 millones de euros de inversión

Medidas de seguridad y trazabilidad de contenidos

OpenAI ha implementado varias medidas de control en la generación de imágenes. Todas las creaciones incluyen metadatos C2PA (Coalition for Content Provenance and Authenticity) que identifican su procedencia desde GPT-4o. También se ha desarrollado un sistema interno de búsqueda reversible que permite verificar si una imagen ha sido generada por este modelo, mediante atributos técnicos específicos.

En cuanto a restricciones, el sistema bloquea automáticamente contenidos que infringen las políticas de uso, como imágenes explícitas, manipulaciones con personas reales en contextos sensibles o contenidos violentos. Se han establecido limitaciones más estrictas en la generación de imágenes con elementos humanos, especialmente en lo referente a desnudez o violencia gráfica.

Acceso progresivo y uso vía API

La función ya está activa para los usuarios de ChatGPT en los planes Plus, Pro, Team y Free, y se implementará en breve para los entornos corporativos (Enterprise) y educativos (Edu). También se podrá acceder a ella desde la aplicación Sora. Aunque DALL·E seguirá disponible como herramienta independiente, la compañía prioriza a partir de ahora la integración nativa de imagen en GPT-4o.

Los desarrolladores tendrán acceso a la generación de imágenes mediante la API de OpenAI en las próximas semanas, ampliando su disponibilidad para casos de uso en productos de terceros.

Para generar imágenes, los usuarios solo necesitan describir lo que desean a través del chat, pudiendo especificar detalles técnicos como colores en formato hexadecimal, proporciones o fondos transparentes. La mayor complejidad de las imágenes generadas implica un tiempo de renderizado más largo, de hasta un minuto por imagen.

Perspectiva empresarial y profesional

La incorporación nativa de generación de imágenes en GPT-4o abre posibilidades para sectores que requieren representación visual precisa, como el diseño gráfico, la educación, la comunicación empresarial y la producción multimedia. La capacidad del modelo para interpretar instrucciones complejas, mantener coherencia visual y adaptarse al contexto conversacional lo posiciona como una herramienta con potencial de adopción en entornos corporativos, sin requerir conocimientos técnicos avanzados por parte del usuario final.

Si bien OpenAI señala que el sistema aún presenta limitaciones y áreas de mejora, su enfoque en seguridad, trazabilidad y utilidad específica busca consolidar la generación de imágenes como una funcionalidad integrada en el trabajo diario de profesionales y equipos técnicos.

Etiquetas

ChatGPT gpt-4o openai