Salesforce ProVision impulsa la IA multimodal con generación programática de datos visuales

Salesforce presenta ProVision, un marco para generar datos visuales que mejora el entrenamiento de modelos de IA multimodal, destacando en precisión y escalabilidad.

La expansión de proyectos de inteligencia artificial (IA) en las empresas ha generado una alta demanda de datos de calidad para el entrenamiento de modelos, in embargo, los datos disponibles en la web pública se están agotando rápidamente. Compañías como OpenAI y Google han obtenido acceso exclusivo a grandes conjuntos de datos, limitando aún más las opciones para otras organizaciones.

En este contexto, Salesforce ha presentado ProVision , un framework diseñado para generar de forma programática datos de instrucción visual. Con esta solución, la empresa busca superar las limitaciones asociadas con los métodos tradicionales de recopilación de datos, como la dependencia de modelos propietarios o la necesidad de etiquetado manual.

ProVision y su impacto en la generación de datos

ProVision emplea gráficos de escena, una representación estructurada de la semántica de las imágenes, para crear datos de entrenamiento visual. Los objetos se representan como nodos, sus atributos se asignan directamente a los nodos, y las relaciones entre ellos se muestran como conexiones dirigidas. Esta representación permite sintetizar automáticamente preguntas y respuestas que describen las imágenes, un elemento clave en el entrenamiento de modelos multimodales.

Salesforce ha implementado dos enfoques principales para generar gráficos de escena:

Ampliación de gráficos existentes: Se utilizan gráficos añadidos manualmente, como los del conjunto de datos Visual Genome, combinados con técnicas avanzadas de visión artificial para incluir información adicional como profundidad y segmentación.
Generación desde cero: Mediante una canalización de generación de gráficos de escena que utiliza modelos de última generación.

Dataset ProVision-10M: Un recurso para el entrenamiento de IA

Con estos métodos, Salesforce ha producido el dataset ProVision-10M, que incluye más de 10 millones de puntos de datos de entrenamiento únicos. Este conjunto de datos, ya disponible en Hugging Face, se divide en:

1,5 millones de puntos de datos de instrucción para imágenes individuales generados con gráficos manualmente anotados.
4,2 millones de puntos de datos para imágenes múltiples generados con gráficos manualmente anotados.
2,3 millones de puntos de datos para imágenes individuales generados desde cero.
4,2 millones de puntos de datos para imágenes múltiples generados desde cero.

Resultados en modelos multimodales

Al incorporar ProVision-10M en procesos de ajuste fino de modelos multimodales, como LLaVA-1.5 para datos de imágenes individuales y Mantis-SigLIP-8B para datos de imágenes múltiples, Salesforce observó mejoras significativas:

Incremento del 7% en rendimiento en divisiones 2D y 8% en 3D en CVBench.
3% de mejora en benchmarks como QBench2, RealWorldQA y MMMU.
8% de aumento en la evaluación Mantis-Eval para datos de imágenes múltiples.

Ventajas clave de ProVision

Escalabilidad: La generación programática permite producir grandes volúmenes de datos sin depender de métodos manuales costosos.
Precisión: La integración de plantillas predefinidas asegura la consistencia y exactitud en las preguntas y respuestas generadas.
Control e interpretabilidad: A diferencia de los modelos propietarios, ProVision permite personalizar y entender completamente el proceso de generación de datos.

Retos futuros y desarrollo continuo

Salesforce planea seguir desarrollando ProVision para incluir:

Nuevos tipos de generadores de datos que permitan abarcar más modalidades, como videos.
Mejora en la canalización de generación de gráficos de escena para lograr representaciones más precisas.
Herramientas que permitan la integración directa en flujos de trabajo empresariales.

Salesforce ProVision en el ecosistema de IA

ProVision se suma a una creciente lista de herramientas diseñadas para mejorar el entrenamiento de modelos multimodales, incluyendo Cosmos de Nvidia, que genera datos visuales para entrenar modelos físicos. Sin embargo, ProVision destaca por su enfoque en los datos de instrucción, un elemento clave que muchas soluciones no abordan directamente.

La capacidad de generar datos de alta calidad de manera programática asegura un avance significativo para empresas que buscan implementar IA multimodal sin enfrentarse a los altos costes o limitaciones de los métodos tradicionales.