Google DeepMind presenta Gemini 2.0, su modelo de IA multimodal más avanzado

Google DeepMind lanza Gemini 2.0, un modelo de IA con capacidades avanzadas en multimodalidad, razonamiento y agentes inteligentes para aplicaciones prácticas.

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

Google DeepMind ha anunciado el lanzamiento de Gemini 2.0 , su modelo de inteligencia artificial más avanzado hasta la fecha. Diseñado para potenciar la próxima era de los agentes de IA, este modelo ofrece capacidades multimodales ampliadas y un rendimiento superior, consolidando su lugar como líder en la investigación y desarrollo de inteligencia artificial.

Demis Hassabis, CEO de Google DeepMind, y Koray Kavukcuoglu, CTO de la compañía, destacan que Gemini 2.0 representa un paso clave hacia el desarrollo de agentes más ágiles, capaces de comprender mejor el mundo que les rodea, anticiparse a las necesidades de los usuarios y actuar bajo supervisión.

Evolución desde Gemini 1.0: nuevas capacidades para una nueva era

Gemini 1.0, lanzado en diciembre de 2023, marcó un hito como el primer modelo nativamente multimodal, permitiendo procesar y generar información a partir de texto, vídeo, imágenes, audio y código. Ahora, Gemini 2.0 amplía estas capacidades con avances significativos:

Generación nativa de imágenes y audio: La nueva versión incluye la capacidad de crear contenido visual y sonoro de manera integrada.
Razonamiento avanzado y contexto largo: Puede procesar y comprender instrucciones complejas y realizar tareas que requieren un análisis detallado de datos.
Integración nativa con herramientas: Gemini 2.0 está diseñado para interactuar de forma fluida con plataformas como la Búsqueda de Google, la ejecución de código y funciones definidas por terceros.

Estas mejoras buscan convertir a Gemini 2.0 en una herramienta más útil y accesible, permitiendo aplicaciones innovadoras tanto para usuarios cotidianos como para desarrolladores.

Gemini 2.0 Flash: rendimiento superior y accesibilidad para desarrolladores

Dentro de la familia Gemini 2.0, destaca Gemini 2.0 Flash, un modelo experimental optimizado para tiempos de respuesta rápidos y un rendimiento mejorado. Según Google DeepMind, Flash 2.0 supera a la versión anterior 1.5 Pro en pruebas clave, doblando su velocidad e integrando nuevas funcionalidades:

Entrada y salida multimodal: Flash 2.0 permite trabajar con imágenes, vídeo y audio como entrada, y generar contenido en formato visual, textual y auditivo.
Conversión de texto a voz (TTS): Capacidad de sintetizar audio multilingüe a partir de texto.
Integración con herramientas de terceros: Los desarrolladores pueden usar Flash 2.0 para crear aplicaciones interactivas mediante la API Multimodal Live, que incluye funciones como entrada de vídeo en tiempo real y el uso simultáneo de múltiples herramientas.

Esta versión experimental ya está disponible para desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI. Su lanzamiento generalizado está previsto para enero de 2025.

Aplicaciones prácticas: desde la Búsqueda hasta la investigación avanzada

Gemini 2.0 ya está transformando productos clave de Google, como la Búsqueda. Las Vistas Creadas con IA, que ya llegan a mil millones de personas, incorporarán las capacidades avanzadas de razonamiento de Gemini 2.0 para resolver preguntas complejas, consultas multimodales y problemas matemáticos avanzados. Esta funcionalidad está siendo probada de forma limitada y se expandirá globalmente en 2025.

Otra aplicación destacada es Deep Research, una herramienta diseñada para ayudar en investigaciones complejas, generando informes detallados con capacidades avanzadas de razonamiento y procesamiento de contexto largo. Esta función ya está disponible en Gemini Advanced.

Prototipos de investigación con Gemini 2.0: explorando el futuro de los agentes de IA

Google DeepMind ha desarrollado varios prototipos para explorar el potencial de los agentes de IA con Gemini 2.0:

Proyecto Astra: hacia un asistente universal

Este prototipo, probado por testers de confianza en dispositivos Android, integra capacidades avanzadas como:

Conversación en varios idiomas: Incluye mejor comprensión de acentos y términos poco comunes.
Uso de herramientas nativas: Utiliza Búsqueda, Lens y Maps para ofrecer asistencia personalizada.
Memoria mejorada: Puede recordar interacciones pasadas y mantener contexto durante sesiones de hasta 10 minutos.
Latencia optimizada: Permite interacciones en tiempo real con tiempos de respuesta similares a los humanos.

Próximamente, Proyecto Astra será probado en gafas inteligentes, explorando nuevas aplicaciones prácticas.

Proyecto Mariner: agentes que interactúan con navegadores

Este prototipo permite a los agentes comprender y razonar sobre información en navegadores, completando tareas en pantalla mediante una extensión experimental de Chrome. Aunque aún se encuentra en fases tempranas, ha alcanzado un rendimiento del 83,5 % en la evaluación WebVoyager, que mide su capacidad para realizar tareas web complejas.

Jules: asistencia para desarrolladores

Este agente experimental ayuda a desarrolladores en flujos de trabajo de programación, integrándose con GitHub para planificar y ejecutar tareas bajo supervisión.

Gemini 2.0 en videojuegos y robótica

Gemini 2.0 también explora aplicaciones innovadoras en entretenimiento y robótica:

Agentes en videojuegos: Pueden interpretar reglas y ofrecer sugerencias en tiempo real, colaborando con desarrolladores como Supercell en títulos como Clash of Clans.
Robótica: El modelo aplica su capacidad de razonamiento espacial para interactuar con el entorno físico, abriendo nuevas posibilidades en la automatización y la asistencia.

Compromiso con el desarrollo seguro y responsable

Google DeepMind reafirma su compromiso con un enfoque ético en el desarrollo de IA. Gemini 2.0 incluye mecanismos avanzados para mitigar riesgos, proteger la privacidad y evitar usos indebidos:

Evaluaciones de seguridad: En colaboración con el Comité de Responsabilidad y Seguridad, se identifican riesgos potenciales y se desarrollan estrategias para mitigarlos.
Protección de datos: Se incorporan controles para evitar la exposición de información sensible y garantizar que los agentes actúen de forma fiable.
Resistencia a ataques externos: El modelo está entrenado para priorizar las instrucciones del usuario frente a intentos de inyección de terceros.