Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
En la reciente conferencia Google I/O 2024, Google ha presentado importantes avances en la familia de modelos Gemini, marcando un nuevo horizonte en el desarrollo y aplicación de la inteligencia artificial. Estas innovaciones prometen redefinir la tecnología de IA, desde modelos más rápidos y eficientes hasta agentes universales de IA.
Gemini 1.5 Flash: Rapidez y Eficiencia
Uno de los lanzamientos más destacados es el modelo Gemini 1.5 Flash. Este nuevo modelo, diseñado para ser el más rápido y eficiente hasta la fecha, se dirige a satisfacer la demanda de menor latencia y menores costos operativos en aplicaciones a gran escala. Aunque es más liviano que el 1.5 Pro, 1.5 Flash mantiene capacidades impresionantes de razonamiento multimodal y puede manejar grandes volúmenes de información.
Demis Hassabis, CEO y cofundador de DeepMind, explicó que el 1.5 Flash ha sido optimizado para tareas de alto volumen y frecuencia, como la generación de resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, y la extracción de datos de documentos extensos. El modelo fue entrenado utilizando un proceso de «destilación», donde los conocimientos y habilidades esenciales de un modelo más grande se transfieren a uno más pequeño y eficiente.
Mejoras en Gemini 1.5 Pro
Además del lanzamiento del 1.5 Flash, Gemini 1.5 Pro también ha recibido importantes actualizaciones. Este modelo, que ya era conocido por su rendimiento en una amplia gama de tareas, ahora cuenta con una ventana de contexto extendida a 2 millones de tokens. Las mejoras incluyen optimizaciones en la generación de código, razonamiento y planificación lógica, así como en la comprensión de audio e imágenes.
Hassabis destacó que la última versión de 1.5 Pro ha logrado avances significativos en varios puntos de referencia públicos en dominios como razonamiento, codificación y comprensión de imágenes y videos. Estas mejoras hacen que el modelo sea aún más útil para desarrolladores y usuarios empresariales, permitiendo la creación de aplicaciones más sofisticadas y precisas.
Expansión de Gemini Nano
Gemini Nano, el modelo diseñado específicamente para funcionar en dispositivos, ha recibido importantes mejoras. Originalmente centrado en el procesamiento de texto, Gemini Nano ahora ha expandido sus capacidades para incluir también imágenes. Esta evolución permite a las aplicaciones que utilicen Gemini Nano comprender el mundo de manera más completa y multidimensional, similar a cómo lo hacen las personas, a través de la vista, el sonido y el lenguaje hablado.
Inicialmente, estas capacidades ampliadas estarán disponibles en dispositivos Pixel. Con esta actualización, las aplicaciones podrán interpretar y procesar datos visuales junto con entradas de texto, ofreciendo una experiencia de usuario más rica e intuitiva. Por ejemplo, las aplicaciones podrían identificar objetos en fotos, realizar búsquedas visuales y proporcionar respuestas basadas en la combinación de texto e imágenes.
Además, Gemini Nano está optimizado para funcionar de manera eficiente en dispositivos móviles, garantizando que el procesamiento de información sea rápido y consuma menos recursos. Esto es especialmente relevante para aplicaciones que requieren respuestas rápidas y precisas, como asistentes personales, herramientas de productividad y aplicaciones educativas.
Hassabis destacó que estas mejoras son parte de un esfuerzo continuo para integrar la inteligencia artificial de manera más profunda y útil en la vida cotidiana de los usuarios, permitiendo que la tecnología sea más accesible y efectiva en una variedad de contextos y escenarios.
La Próxima Generación: Gemma 2
En su post, Hassabis también anunció la próxima generación de modelos abiertos, Gemma 2. Estos modelos, basados en la misma tecnología que Gemini, están diseñados para lograr un rendimiento y eficiencia innovadores y estarán disponibles en nuevos tamaños.
La familia Gemma se expande además con PaliGemma, un modelo de visión y lenguaje inspirado en PaLI-3, y se actualiza el kit de herramientas de IA generativa responsable con el LLM Comparator para evaluar la calidad de las respuestas de los modelos.
Proyecto Astra: Agentes Universales de IA
Uno de los anuncios más visionarios de Google I/O 2024 es el Proyecto Astra, una iniciativa que busca desarrollar agentes universales de IA. Estos agentes están diseñados para ser increíblemente útiles en situaciones cotidianas, comprendiendo y respondiendo a la compleja y dinámica realidad del mundo de la misma manera que lo hacen las personas.
Capacidades Avanzadas
Los agentes de Proyecto Astra se construyen utilizando los modelos de la familia Gemini y otros modelos específicos de tareas. Estas IA son capaces de procesar información rápidamente, codificando continuamente cuadros de video, combinando entradas de video y voz en una línea de tiempo de eventos, y almacenando esta información en caché para su recuperación eficiente. Este enfoque permite que los agentes proporcionen respuestas rápidas y contextualmente precisas, mejorando significativamente la interacción del usuario.
Comprensión Multimodal
Una característica clave de estos agentes es su capacidad de comprender múltiples tipos de entrada, incluidos texto, imágenes y audio. Utilizan modelos de habla avanzados para ofrecer una gama más amplia de entonaciones y matices en sus respuestas, lo que hace que las interacciones sean más naturales y fluidas. Estos agentes no solo responden a comandos, sino que también pueden razonar, planificar y anticiparse a las necesidades del usuario.
Aplicaciones Prácticas
Hassabis ilustró cómo estos agentes pueden transformar tareas cotidianas. Imaginemos un escenario en el que un usuario necesita organizar una mudanza a una nueva ciudad. El agente de IA de Proyecto Astra podría ayudar a encontrar servicios locales, actualizar direcciones en múltiples sitios web y organizar la logística de la mudanza, todo de manera autónoma pero bajo la supervisión del usuario.
Otro ejemplo práctico es el manejo de devoluciones de compras en línea. El agente podría buscar el recibo en la bandeja de entrada, localizar el número de pedido, llenar el formulario de devolución y programar una recogida con un servicio de mensajería, simplificando un proceso que normalmente requeriría varios pasos manuales.
Futuro de la Interacción
Estos avances permiten imaginar un futuro en el que los usuarios puedan tener un asistente experto a su lado, accesible a través de dispositivos como teléfonos o gafas inteligentes. Este asistente podría ofrecer ayuda en tiempo real, mejorar la productividad y hacer la vida diaria más eficiente.
Desafíos y Progreso
Desarrollar agentes de IA que puedan entender y reaccionar al mundo en tiempo real es un desafío de ingeniería complejo. Google ha estado trabajando para mejorar cómo sus modelos perciben, recuerdan, razonan y conversan, con el objetivo de hacer que las interacciones sean más naturales y fluidas. A medida que estos agentes se desarrollan, Google está comprometido con la creación de sistemas de IA que sean privados, seguros y útiles para todos.
Futuro de la IA con Google
Con estos avances, Google continúa liderando el camino en la investigación y desarrollo de IA. La introducción de Gemini 1.5 Flash, las mejoras en 1.5 Pro, la expansión de Gemini Nano y el lanzamiento de Gemma 2 y Proyecto Astra, subrayan el compromiso de Google con la innovación tecnológica y su visión de crear una inteligencia artificial útil y accesible para todos.
Demis Hassabis concluyó su presentación reafirmando la misión de Google DeepMind de desarrollar una IA responsable que beneficie a las personas. Estos avances representan un paso significativo hacia la creación de sistemas de IA que no solo entienden y responden a nuestras necesidades, sino que también pueden anticiparse y adaptarse a ellas de manera proactiva y personalizada.