

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
NVIDIA ha anunciado un lanzamiento estratégico dentro de su plataforma NVIDIA Cosmos , una suite de modelos fundacionales del mundo real (World Foundation Models, WFMs) orientada al desarrollo de inteligencia artificial física.
Esta nueva versión introduce modelos avanzados diseñados para predecir estados del entorno, generar datos sintéticos fotorealistas a partir de simulaciones y razonar sobre comportamientos en escenarios físicos complejos. Las herramientas están pensadas para acelerar el entrenamiento y la implantación de agentes inteligentes en campos como la robótica, los vehículos autónomos y la automatización industrial.
La actualización incluye los modelos Cosmos Predict, Cosmos Transfer y Cosmos Reason, junto con dos nuevos blueprints que permiten generar datos sintéticos controlables a gran escala utilizando la plataforma Omniverse™, basada en el estándar abierto OpenUSD. Fuente: NVIDIA.
Modelos fundacionales para simulación, predicción y razonamiento en IA física
Cosmos Predict permite generar representaciones dinámicas del entorno físico a partir de entradas multimodales, como texto, imágenes o vídeo. Este modelo es capaz de anticipar trayectorias de movimiento o acciones intermedias entre un estado inicial y uno final, lo que lo convierte en una herramienta de alto valor para la simulación de entornos interactivos o el entrenamiento de sistemas de navegación autónoma.
Empresas como 1X, desarrolladora de robots humanoides, Nexar, especializada en percepción para vehículos, y Oxa, centrada en conducción autónoma, están utilizando Cosmos Predict para construir entornos de entrenamiento más realistas y diversos.
Cosmos Transfer, por su parte, convierte entradas estructuradas como mapas de segmentación, escaneos lidar, mapas de profundidad y trayectorias estimadas en secuencias de vídeo fotorrealistas. Esta capacidad permite escalar la generación de datos sintéticos, manteniendo un alto grado de control sobre las condiciones del entorno, la iluminación, los ángulos de cámara y los objetos simulados.
Este modelo es especialmente relevante para empresas que necesitan generar grandes volúmenes de datos de entrenamiento sin depender de la recolección en el mundo real. Agility Robotics, Skild AI, Uber y Foretellix son algunas de las compañías que ya lo han adoptado para entrenar modelos de percepción y toma de decisiones en robots humanoides y vehículos autónomos.
Cosmos Reason, aún en fase de acceso anticipado, introduce capacidades de razonamiento temporal y espacial aplicadas a datos de vídeo. Mediante técnicas de razonamiento encadenado (chain-of-thought), este modelo puede identificar interacciones físicas y predecir sus consecuencias, describiéndolas en lenguaje natural. Por ejemplo, es capaz de interpretar si un peatón se dispone a cruzar una calle o si un objeto inestable caerá de una estantería.
Esta funcionalidad lo posiciona como una herramienta útil para mejorar la anotación automática de datos, enriquecer modelos de visión-lenguaje o desarrollar planificadores de alto nivel en sistemas de IA física.
Nuevos blueprints para generación de datos sintéticos a escala
NVIDIA ha presentado dos nuevos blueprints que utilizan los modelos Cosmos en combinación con Omniverse para facilitar la generación de datos sintéticos bajo condiciones totalmente configurables:
-
El Omniverse Blueprint para vehículos autónomos emplea Cosmos Transfer para generar múltiples variaciones de escenas de conducción simuladas, modificando parámetros como climatología, tráfico, iluminación o comportamiento de peatones. Esta capacidad permite a empresas como Foretellix y Parallel Domain aumentar la diversidad de los escenarios utilizados en los conjuntos de entrenamiento, lo cual resulta crítico para robustecer los algoritmos de percepción y planificación de los sistemas autónomos.
-
El GR00T Blueprint para manipulación robótica combina Omniverse y Cosmos Transfer para generar datos de movimiento de manipuladores y humanoides. Este entorno permite reducir el tiempo necesario para recopilar y ampliar datasets desde varios días hasta unas pocas horas, acelerando el entrenamiento de modelos de control y planificación en entornos físicos simulados.
Ambos blueprints están diseñados para facilitar el entrenamiento de modelos tras su fase inicial (post-training), lo que resulta especialmente útil en escenarios donde los datos del mundo real son difíciles de obtener o carecen de suficiente variabilidad.
Infraestructura, herramientas y ecosistema para el despliegue de IA física
Los modelos Cosmos han sido optimizados para ejecutarse sobre la infraestructura de alto rendimiento de NVIDIA, incluyendo los sistemas Grace Blackwell NVL72, que ofrecen procesamiento paralelo y conectividad avanzada mediante la tecnología NVLink™. Esta arquitectura permite generar mundos virtuales en tiempo real, con capacidad de escalar a cientos o miles de nodos conectados.
El post-entrenamiento de modelos Cosmos puede realizarse mediante scripts nativos en PyTorch o utilizando el framework NVIDIA NeMo™, disponible en la nube DGX™ Cloud. Para facilitar la curación y procesamiento de grandes volúmenes de datos, la plataforma incluye también la herramienta NeMo Curator, que ya está siendo utilizada por empresas como Linker Vision, Milestone Systems y Virtual Incision para entrenar modelos de visión-lenguaje en aplicaciones como vigilancia, robótica médica y análisis de vídeo.
En el ámbito del transporte autónomo, Uber y Waabi están empleando estas herramientas para mejorar sus sistemas de percepción, planificación y control mediante datasets sintéticos generados de forma controlada y precisa.
Controles de integridad y transparencia en contenidos generados
En línea con los principios de desarrollo de IA responsable, NVIDIA ha dotado a los modelos Cosmos de salvaguardas abiertas que limitan usos indebidos y contribuyen a la trazabilidad de los contenidos generados. En colaboración con Google DeepMind, se ha integrado la herramienta SynthID, que permite aplicar marcas de agua digitales a los vídeos y datos generados por los modelos, facilitando su identificación y diferenciación frente a contenidos reales.
Disponibilidad
Los modelos Cosmos WFMs están ya disponibles en versión preliminar en el catálogo de APIs de NVIDIA y en la Vertex AI Model Garden de Google Cloud. Las versiones abiertas de Cosmos Predict y Cosmos Transfer pueden descargarse desde Hugging Face y GitHub, mientras que Cosmos Reason está accesible para desarrolladores mediante solicitud anticipada.
Consolidación de Cosmos como base para la IA física industrial
La nueva generación de modelos Cosmos representa un paso significativo en la evolución de las herramientas de desarrollo para inteligencia artificial orientada al mundo físico. La posibilidad de generar datos fotorrealistas y escenarios personalizados, junto con capacidades avanzadas de predicción y razonamiento, permite acortar los ciclos de entrenamiento, mejorar la calidad de los modelos y facilitar su despliegue en entornos reales.
Esta tecnología habilita a los desarrolladores para crear agentes físicos más seguros, precisos y adaptables, abriendo nuevas posibilidades en sectores como la robótica industrial, la automoción, la logística, la salud y la vigilancia avanzada. Con su estrategia basada en estándares abiertos y herramientas interoperables, NVIDIA refuerza su posición como proveedor de referencia en el ecosistema de IA física.