Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
Investigadores de la Universidad de Texas en Austin han dado un paso en la formación de modelos de inteligencia artificial (IA) utilizando imágenes corruptas. Este nuevo enfoque, denominado Ambient Diffusion, permite que los modelos de IA se inspiren en las imágenes sin copiarlas directamente.
Tradicionalmente, los modelos de texto a imagen como DALL-E, Midjourney y Stable Diffusion enfrentan el riesgo de infracción de derechos de autor porque se entrenan con conjuntos de datos que incluyen imágenes protegidas, lo que puede llevar a la replicación involuntaria de estas. No obstante, Ambient Diffusion cambia completamente el paradigma entrenando modelos con datos intencionalmente corrompidos.
Experimentación y resultados prometedores
En el estudio, el equipo de investigación, que incluye a Alex Dimakis y Giannis Daras del departamento de Ingeniería Eléctrica y Computación de UT Austin y Constantinos Daskalakis del MIT, entrenó un modelo Stable Diffusion XL utilizando un conjunto de datos de 3,000 imágenes de celebridades.
Inicialmente, los modelos entrenados con datos limpios demostraron claramente una tendencia a copiar los ejemplos de entrenamiento. Sin embargo, cuando los datos de entrenamiento fueron corrompidos al enmascarar aleatoriamente hasta el 90% de los píxeles, el modelo aún produjo imágenes de alta calidad y únicas.
Esto significa que la IA nunca tiene acceso a versiones reconocibles de las imágenes originales, lo que impide que las copie.
«Nuestro marco permite controlar el equilibrio entre la memorización y el rendimiento,» explicó Giannis Daras, estudiante de posgrado en ciencias de la computación que lideró el trabajo. «A medida que aumenta el nivel de corrupción durante el entrenamiento, la memorización del conjunto de entrenamiento disminuye.»
Aplicaciones científicas y médicas
Las aplicaciones de Ambient Diffusion van más allá de resolver problemas de derechos de autor. Según el profesor Adam Klivans, colaborador del proyecto, «El marco podría ser útil también para aplicaciones científicas y médicas. Eso sería cierto para prácticamente cualquier investigación donde sea costoso o imposible tener un conjunto completo de datos no corrompidos, desde la imagen de agujeros negros hasta ciertos tipos de escaneos de resonancia magnética.»
Esto es particularmente beneficioso en campos con acceso limitado a datos no corrompidos, como la astronomía y la física de partículas. En estos ámbitos, los datos pueden ser extremadamente ruidosos, de baja calidad o escasos, lo que significa que los datos significativos están ampliamente superados en número por datos inútiles. Enseñar a los modelos a usar datos subóptimos de manera más eficiente sería muy útil.
Si el enfoque de Ambient Diffusion se refina aún más, las empresas de IA podrían crear modelos funcionales de texto a imagen respetando los derechos de los creadores de contenido originales y evitando problemas legales.
Aunque esto no solucionaría las preocupaciones sobre que las herramientas de imagen de IA reducen el mercado de trabajo para artistas reales, al menos protegería sus obras de ser replicadas en los resultados.