
Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…
Google DeepMind ha anunciado el lanzamiento de Gemini Robotics , una nueva evolución de su modelo de inteligencia artificial basado en Gemini 2.0, diseñado específicamente para el control de robots.
Este desarrollo busca trasladar las capacidades de razonamiento multimodal de Gemini—hasta ahora confinadas al ámbito digital—al mundo físico, dotando a los robots de habilidades avanzadas de interacción y manipulación.
Gemini Robotics: una nueva generación de robots autónomos
El modelo Gemini Robotics introduce una modalidad de salida adicional: la acción física. A diferencia de modelos anteriores de visión-lenguaje-acción (VLA), Gemini Robotics permite el control directo de robots, abriendo nuevas posibilidades en entornos domésticos, industriales y comerciales. Además, se ha desarrollado Gemini Robotics-ER, una versión especializada en razonamiento espacial que facilita a los ingenieros la integración del modelo con sus propios controladores.
Ambos modelos han sido diseñados para ampliar la autonomía de los robots en la realización de tareas complejas y adaptarse a nuevos entornos sin necesidad de programación previa. Para ello, Google DeepMind ha establecido colaboraciones estratégicas con empresas como Apptronik, fabricante de robots humanoides, así como con otras organizaciones que participan en la fase de pruebas del modelo.
Capacidades clave de Gemini Robotics
Para que un modelo de inteligencia artificial resulte útil en robótica, necesita cumplir tres requisitos esenciales: generalidad, interactividad y destreza. Según Google DeepMind, Gemini Robotics representa un avance significativo en estos tres aspectos.
Generalidad: Adaptabilidad a nuevos entornos
Uno de los principales desafíos en robótica es la capacidad de adaptación a situaciones imprevistas. Gemini Robotics ha sido entrenado para generalizar su aprendizaje a nuevos objetos, instrucciones y entornos sin necesidad de ajustes adicionales. En pruebas realizadas por la compañía, el modelo ha demostrado más del doble de rendimiento en comparación con otros modelos VLA de última generación.
Interactividad: Comprensión del lenguaje natural
La capacidad de interacción es clave en la robótica aplicada al mundo real. Gracias a la base de Gemini 2.0, el modelo puede interpretar instrucciones en lenguaje natural y en múltiples idiomas, ajustando su comportamiento en tiempo real según las necesidades del usuario. Además, es capaz de detectar cambios en su entorno y modificar su planificación de acciones en consecuencia, una habilidad crucial en escenarios dinámicos.
Destreza: Manipulación avanzada de objetos
La manipulación precisa de objetos sigue siendo una de las tareas más desafiantes para los robots. Gemini Robotics ha demostrado capacidad para realizar tareas complejas que requieren precisión, como plegado de origami o empaquetado de objetos en bolsas herméticas. Esta mejora en la destreza lo acerca a un nivel de ejecución más similar al de los humanos.
Compatibilidad con diferentes plataformas robóticas
Gemini Robotics ha sido diseñado para adaptarse a diversos tipos de robots. Durante su entrenamiento, se ha probado con ALOHA 2, una plataforma robótica bi-brazo, así como con brazos robóticos Franka, utilizados en investigación académica. Además, el modelo ha mostrado compatibilidad con robots humanoides como Apollo, de Apptronik, con el objetivo de ejecutar tareas en el mundo real.
Gemini Robotics-ER: Razonamiento espacial avanzado
Además del modelo principal, Google DeepMind ha desarrollado Gemini Robotics-ER, una versión optimizada para el razonamiento espacial. Esta tecnología mejora las capacidades de percepción, estimación del estado, planificación y generación de código, lo que permite a los robots ejecutar tareas de forma autónoma desde la identificación del objeto hasta su manipulación.
Entre sus capacidades destacan:
- Detección de objetos en 3D: Permite identificar y localizar objetos en diferentes planos espaciales.
- Correspondencia de puntos: Facilita la relación entre distintas vistas de un mismo objeto.
- Identificación de partes de un objeto: Ayuda a determinar la mejor forma de agarrar o manipular un elemento.
- Generación de trayectorias seguras: Diseña rutas óptimas para alcanzar y mover objetos sin riesgos.
En pruebas internas, el modelo ha logrado una tasa de éxito entre 2x y 3x superior en comparación con versiones previas de Gemini 2.0.
Seguridad y desarrollo responsable de la IA en robótica
Uno de los principales retos en la integración de IA en robots físicos es la seguridad. Google DeepMind ha desarrollado medidas para garantizar que Gemini Robotics-ER pueda integrarse con controladores de seguridad de bajo nivel, que evitan colisiones, regulan la fuerza de contacto y garantizan la estabilidad dinámica de los robots.
Además, la compañía ha trabajado en un enfoque basado en constituciones de robots, una idea inspirada en las Tres Leyes de la Robótica de Isaac Asimov. Este marco permite definir reglas en lenguaje natural para limitar el comportamiento de los robots y alinearlo con valores humanos.
Para fomentar el desarrollo seguro de la robótica, Google DeepMind ha lanzado ASIMOV, un nuevo conjunto de datos que permite evaluar el impacto de las acciones de los robots en entornos reales. Asimismo, colabora con su equipo de Desarrollo Responsable e Innovación, así como con su Consejo de Seguridad y Responsabilidad, con el objetivo de garantizar el desarrollo ético de la IA aplicada a robótica.
Futuro de Gemini Robotics
Google DeepMind ha iniciado la fase de pruebas de Gemini Robotics-ER con empresas como Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. La compañía espera seguir explorando las capacidades de sus modelos y avanzar hacia una nueva generación de robots autónomos que puedan desempeñar funciones en diversos sectores.
Con estos avances, la inteligencia artificial da un paso más hacia la integración en el mundo físico, con el potencial de transformar la forma en que interactuamos con los robots en el hogar, la industria y otros entornos.