Google lanza Gemini 2.0 Flash Thinking para competir con OpenAI o1

Google presenta Gemini 2.0 Flash Thinking, un modelo multimodal con razonamiento transparente y capacidad para procesar texto e imágenes, diseñado para liderar el mercado de IA avanzada.

Google DeepMind presenta Gemini 2.0, su modelo de IA multimodal más avanzado

Google ha anunciado el lanzamiento de Gemini 2.0 Flash Thinking , un modelo de razonamiento multimodal diseñado para abordar problemas complejos con rapidez, precisión y mayor transparencia. Este desarrollo amplía las capacidades presentadas previamente en la serie Gemini, introduciendo nuevas funciones que destacan por su enfoque en el razonamiento estructurado.

Sundar Pichai, CEO de Google, anunció el lanzamiento a través de una publicación en la red social X, describiéndolo como: “Nuestro modelo más reflexivo hasta ahora:)”. Por su parte, la documentación oficial de Google detalla que el nuevo modo de razonamiento de Gemini 2.0 ofrece capacidades más avanzadas en sus respuestas en comparación con el modelo base Gemini 2.0 Flash, lanzado hace apenas ocho días.

Características técnicas del modelo

Gemini 2.0 Flash Thinking soporta un máximo de 32.000 tokens de entrada (equivalente a 50-60 páginas de texto) y genera respuestas de hasta 8.000 tokens. Según Google AI Studio, está optimizado para tareas de “comprensión multimodal, razonamiento y codificación”.

Aunque todavía no se han revelado detalles completos sobre el proceso de entrenamiento, arquitectura, licencias o costes, actualmente el modelo figura con un coste nulo por token en la plataforma de Google AI Studio, lo que podría facilitar la experimentación inicial por parte de los desarrolladores.

Transparencia en el razonamiento

Una de las principales innovaciones de Gemini 2.0 Flash Thinking respecto a sus competidores, como los modelos o1 y o1 mini de OpenAI, es su enfoque en la transparencia. A través de un menú desplegable, los usuarios pueden visualizar los pasos intermedios que el modelo sigue para llegar a sus conclusiones, abordando así preocupaciones históricas sobre los sistemas de IA como «cajas negras».

Por ejemplo, en pruebas iniciales, el modelo resolvió con precisión y rapidez (entre uno y tres segundos) problemas como contar las letras «R» en la palabra “Strawberry” y comparar números decimales (9.9 frente a 9.11), desglosando metódicamente las operaciones necesarias.

Estos resultados han sido respaldados por análisis de terceros, como el de LM Arena, que clasificó a Gemini 2.0 Flash Thinking como el modelo líder en todas las categorías de modelos lingüísticos grandes (LLM).

Soporte nativo para imágenes y análisis multimodal

En comparación con los modelos de OpenAI, que inicialmente solo admitían texto y añadieron capacidades de análisis de imágenes posteriormente, Gemini 2.0 Flash Thinking incorpora de forma nativa la capacidad de procesar imágenes. Este enfoque amplía significativamente sus casos de uso, permitiéndole abordar escenarios que combinan datos visuales y textuales.

Te puede interesar

MAPFRE establece un marco propio para el uso responsable de la inteligencia artificial

MAPFRE define su estrategia global de IA con un manifiesto y un centro especializado

En una prueba destacada, el modelo resolvió un problema que requería analizar tanto elementos visuales como textuales, demostrando su versatilidad para integrar y razonar a partir de diferentes tipos de datos.

Limitaciones actuales

A pesar de sus capacidades avanzadas, Gemini 2.0 Flash Thinking no incluye, por ahora, integración con Google Search, ni soporte para aplicaciones de Google ni herramientas externas de terceros. Estas características podrían ser añadidas en futuras actualizaciones.

Además, aunque su enfoque en la transparencia y el razonamiento multimodal es notable, las condiciones de licencia del modelo aún no han sido aclaradas, lo que podría limitar su adopción inmediata en determinados sectores.

Perspectiva en el mercado

El lanzamiento de Gemini 2.0 Flash Thinking marca un avance significativo en la competencia entre los gigantes de la IA. Su capacidad para procesar datos diversos, ofrecer razonamientos transparentes y realizar operaciones a gran escala lo posiciona como un competidor serio frente a la familia de modelos o1 de OpenAI y otras plataformas de razonamiento avanzado.

Etiquetas

flash thinking gemini google google ai studio inteligencia artificial openai razonamiento