
Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han irrumpido en la agenda de soberanía digital de Europa, con el anuncio de un nuevo programa destinado a desarrollar una serie de LLMs de código abierto que cubran todos los idiomas de la Unión Europea.
Este ambicioso proyecto, denominado OpenEuroLLM, busca no solo abarcar los 24 idiomas oficiales actuales de la UE, sino también aquellos de países que están en proceso de negociación para ingresar al mercado europeo, como Albania.
La iniciativa OpenEuroLLM es una colaboración entre unas 20 organizaciones, liderada por Jan Hajič, lingüista computacional de la Universidad Charles en Praga, y Peter Sarlin, CEO y cofundador del laboratorio de inteligencia artificial finlandés Silo AI, adquirido por AMD el año pasado por 665 millones de dólares.
Este proyecto se alinea con la narrativa más amplia de Europa de priorizar la soberanía digital, permitiendo que infraestructuras y herramientas críticas se desarrollen localmente. Según TechCrunch, la mayoría de los gigantes de la nube están invirtiendo en infraestructura local para asegurar que los datos de la UE permanezcan dentro de sus fronteras.
Un esfuerzo colaborativo con desafíos
El presupuesto asignado para la construcción de los modelos de OpenEuroLLM es de 37,4 millones de euros, con aproximadamente 20 millones provenientes del Programa Digital Europa de la UE. Aunque esta cifra puede parecer modesta en comparación con las inversiones de las grandes corporaciones de IA, el proyecto cuenta con el respaldo de centros de supercomputación EuroHPC en España, Italia, Finlandia y los Países Bajos, que forman parte de un proyecto más amplio con un presupuesto de alrededor de 7 mil millones de euros.
Sin embargo, la participación de un consorcio tan diverso ha suscitado dudas sobre la viabilidad de sus objetivos. Anastasia Stasenko, cofundadora de la empresa de LLM Pleias, cuestionó si un consorcio tan amplio podría tener el mismo enfoque medido que una empresa privada de IA. Stasenko destacó que los recientes éxitos de Europa en IA han sido impulsados por equipos pequeños y enfocados, como Mistral AI y LightOn.
Construyendo sobre bases existentes
El proyecto OpenEuroLLM no parte completamente de cero. Desde 2022, Hajič ha estado coordinando el proyecto High Performance Language Technologies (HPLT), que ha desarrollado conjuntos de datos, modelos y flujos de trabajo reutilizables utilizando computación de alto rendimiento. Este proyecto, que finalizará en 2025, se considera un precursor de OpenEuroLLM, ya que muchos de sus socios participan también en la nueva iniciativa.
Se espera que las primeras versiones de los modelos de OpenEuroLLM se lancen a mediados de 2026, con la iteración final prevista para 2028. Aunque el proyecto comenzó formalmente en febrero de 2025, Hajič asegura que se ha estado preparando durante un año, lo que debería permitir un rápido avance.
El desafío de la diversidad lingüística
El objetivo principal del proyecto es crear modelos fundacionales para una IA transparente en Europa, preservando la diversidad lingüística y cultural de todos los idiomas de la UE. Esto implica desarrollar un LLM multilingüe central para tareas de propósito general, así como versiones más pequeñas y «cuantizadas» para aplicaciones donde la eficiencia y la velocidad son prioritarias.
El proyecto enfrenta el desafío de lograr una competencia igualitaria en todos los idiomas, especialmente aquellos con recursos digitales escasos. Para abordar esto, se utilizarán datos del proyecto HPLT y se añadirán datos adicionales de Common Crawl, un repositorio abierto de datos web.
La definición de código abierto en IA
El proyecto OpenEuroLLM también se enfrenta a la cuestión de qué significa realmente ser «código abierto» en el contexto de la IA. Aunque el objetivo es que todo sea abierto, existen limitaciones legales y de calidad que podrían requerir compromisos. Según Hajič, algunos datos de entrenamiento podrían no ser redistribuibles, pero estarán disponibles para auditores bajo la normativa de la UE.
Un camino hacia la soberanía digital
A pesar de las críticas y los desafíos, el proyecto OpenEuroLLM representa un paso significativo hacia la soberanía digital de Europa. Aunque no busca competir directamente con gigantes tecnológicos, su objetivo es proporcionar modelos fundacionales abiertos que sirvan como infraestructura de IA para que las empresas europeas construyan sobre ellos. Como señala Hajič, incluso si el modelo no se convierte en el número uno, el hecho de que todos sus componentes estén basados en Europa ya es un resultado positivo.