Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
En la conferencia anual Google I/O 2024 , Sundar Pichai, CEO de Google, presentó una serie de innovaciones que marcan el inicio de lo que la compañía denomina la Era Gemini. Este evento destacó avances significativos en inteligencia artificial, productos de consumo y herramientas para desarrolladores, subrayando el compromiso de Google con la IA desde hace más de una década.
La Era Gemini
Gemini, un modelo de IA multimodal, fue el foco principal de la presentación. Este modelo ha sido diseñado para manejar y razonar a través de diversas formas de entrada como texto, imágenes, video, código y más, buscando transformar cualquier entrada en cualquier tipo de resultado de salida.
Desde su presentación inicial, Gemini ha demostrado un rendimiento excepcional en pruebas comparativas y ha logrado avances significativos con su versión 1.5 Pro, capaz de procesar hasta 1 millón de tokens de manera consistente.
Pichai destacó que actualmente más de 1500 millones de desarrolladores están utilizando Gemini para depurar código, adquirir nuevos conocimientos y crear aplicaciones de IA. Además, los productos de Google, que suman 2000 millones de usuarios, han integrado las capacidades de Gemini, proporcionando experiencias innovadoras en la Búsqueda, Fotos, Workspace, Android y otros productos.
Innovaciones en la Búsqueda
Uno de los avances más significativos se ha producido en la Búsqueda de Google, que ahora cuenta con Resúmenes creados con IA. Esta función permite a los usuarios obtener respuestas más precisas y útiles, facilitando la búsqueda de información a través de preguntas más largas y complejas, incluyendo búsquedas con fotos. Esta experiencia renovada se lanzará en los Estados Unidos esta semana, con planes de expansión a otros países próximamente.
La Búsqueda Generativa ha sido un éxito desde su lanzamiento, permitiendo a los usuarios realizar consultas más detalladas y complejas, y haciendo uso de imágenes para mejorar los resultados. Con el lanzamiento de «Resúmenes creados con IA», Google busca mejorar aún más la satisfacción del usuario, ofreciendo respuestas rápidas y precisas a preguntas complejas.
Pregunta a Fotos
Google Fotos, un producto utilizado por millones de personas para organizar sus recuerdos, ha introducido la función «Pregunta a Fotos». Esta innovación permite a los usuarios realizar búsquedas avanzadas en sus fotos y videos. Por ejemplo, es posible preguntar detalles específicos como «¿Cuándo aprendió Lucía a nadar?», y recibir respuestas contextualizadas que abarcan diferentes momentos y actividades. Esta función estará disponible este verano, con más características por venir.
El uso de IA en Google Fotos va más allá de la simple identificación de imágenes. Ahora, al preguntar a Fotos, la aplicación puede identificar eventos y momentos específicos, como la primera vez que un niño aprendió a nadar, o el progreso de una persona en una actividad como el esnórquel. Esto se logra a través del reconocimiento de contextos variados, como fechas en certificados de natación o diferentes actividades acuáticas.
Gemini 1.5 Pro y Contexto Extenso
Gemini 1.5 Pro ha mejorado significativamente en la comprensión y manejo de contexto extenso, permitiendo procesar grandes cantidades de información, como repositorios enteros de código o largas transcripciones de video. Esta capacidad está disponible para los desarrolladores a partir de hoy, y Google ha anunciado una versión preliminar privada que extiende la ventana de contexto a 2 millones de tokens.
El contexto extenso multiplica la cantidad de información que se puede procesar, lo que permite respuestas más detalladas y precisas a preguntas complejas. Gemini 1.5 Pro puede manejar cientos de páginas de texto, horas de audio o video, y grandes repositorios de código, haciendo posible trabajar con información densa y variada. Esto es especialmente útil para desarrolladores que necesitan trabajar con grandes volúmenes de datos de manera eficiente.
Gemini en Google Workspace
En Google Workspace, Gemini 1.5 Pro facilita tareas cotidianas como la búsqueda de correos en Gmail y la creación de resúmenes de reuniones grabadas en Google Meet. Estas capacidades están diseñadas para hacer la vida diaria más sencilla y eficiente.
Un ejemplo práctico de esto es la posibilidad de pedir a Gemini que resuma todos los correos recientes del colegio, identificando los correos relevantes y analizando los adjuntos, incluyendo PDFs. Esto resulta en un resumen con los puntos clave y las acciones necesarias. También es posible pedir a Gemini que resuma grabaciones de reuniones largas, facilitando la obtención de la información más importante sin necesidad de ver la grabación completa.
Avances en NotebookLM
La multimodalidad de Gemini permite la generación de resúmenes de audio personalizados e interactivos en NotebookLM. Esta característica muestra cómo la IA puede manejar diferentes tipos de entrada y salida para proporcionar una experiencia más rica y útil.
Los resúmenes de audio en NotebookLM toman materiales de origen y generan una conversación de audio personalizada, permitiendo a los usuarios interactuar con la información de una manera más dinámica y accesible. Esta es una muestra del potencial de la multimodalidad en la creación de nuevas formas de interacción con la tecnología.
Agentes de IA
Pichai también habló sobre el potencial de los agentes de IA, sistemas inteligentes que pueden razonar, planificar y ejecutar tareas complejas. Un ejemplo práctico es la gestión de devoluciones de compras en línea, donde Gemini puede automatizar todo el proceso, desde buscar el recibo en la bandeja de entrada hasta programar una recogida con un servicio de mensajería.
Estos agentes de IA están diseñados para trabajar de manera autónoma, pero siempre bajo la supervisión del usuario. Pueden realizar tareas complejas como organizar una mudanza, encontrar servicios locales y actualizar direcciones en múltiples sitios web, facilitando la vida diaria de los usuarios.
Infraestructura: Trillium y más
Para soportar estos avances, Google anunció la sexta generación de sus TPUs, Trillium, que ofrecen un rendimiento y eficiencia sin precedentes. Además, Google seguirá ofreciendo CPUs y GPUs avanzadas, como los nuevos procesadores Axion y las GPUs Blackwell de NVIDIA, disponibles a principios de 2025.
Trillium, la TPU de sexta generación, multiplica por 4,7 el rendimiento computacional por chip de la generación anterior, la TPU v5e. Esta mejora en la infraestructura es crucial para el entrenamiento y ejecución de modelos de IA de última generación, permitiendo a Google y a otras empresas líderes en IA como Anthropic, entrenar sus modelos de manera más eficiente y rápida.