
Los usuarios suscritos a Gemini Advanced ya pueden crear vídeos de 8 segundos a partir de descripciones textuales, gracias a la integración del modelo de generación de vídeo Veo 2.
Esta tecnología, que se incorpora tanto a la versión web como a la móvil de Gemini, permite producir clips en formato MP4 con resolución de 720p a partir de prompts escritos, abriendo nuevas posibilidades para la creación de contenido audiovisual con inteligencia artificial.
La función se habilita de forma progresiva a partir de hoy para suscriptores en todo el mundo, incluida España. También está disponible en todos los idiomas compatibles con Gemini, entre ellos el español.
Veo 2 permite transformar texto en vídeo en Gemini
Veo 2, el nuevo modelo de generación de vídeo de Google, se incorpora al conjunto de herramientas de Gemini Advanced. Esta integración permite convertir textos en vídeos cortos mediante una selección directa del modelo desde el menú de la plataforma. Los vídeos generados duran 8 segundos y se presentan en formato apaisado 16:9.
El modelo ha sido entrenado con principios de física del mundo real y patrones de movimiento humano, lo que le permite generar clips con movimientos fluidos, escenas verosímiles y alto nivel de detalle. Aunque existe un límite mensual en la creación de vídeos, los usuarios reciben notificaciones cuando se aproxima ese tope.
Disponibilidad y acceso desde dispositivos móviles
Una de las funcionalidades destacadas de esta actualización es la posibilidad de compartir directamente los vídeos generados desde el teléfono móvil en plataformas como TikTok o YouTube Shorts. El flujo de uso se basa en una descripción textual de la escena que el usuario desea recrear, desde conceptos visuales hasta escenas narrativas. La herramienta interpreta estos textos y genera vídeos de forma automática.
Google recomienda describir con el mayor detalle posible la escena a crear, ya que el grado de precisión del resultado depende directamente de la calidad del prompt. A pesar de las capacidades visuales del modelo, la duración y resolución están limitadas en esta primera versión pública.
Medidas de seguridad en la generación de contenido
Google ha incorporado diversas medidas para evitar un uso indebido de la generación de vídeo. Entre ellas destaca la inclusión de una marca de agua digital incrustada mediante SynthID en cada fotograma, lo que permite identificar que el contenido ha sido generado por inteligencia artificial. Además, la compañía ha sometido el modelo a procesos de prueba y evaluación, incluyendo ejercicios de red teaming, con el fin de detectar y prevenir posibles desviaciones del uso previsto.
El sistema también permite retroalimentación directa por parte del usuario a través de botones de aprobación o rechazo, con el objetivo de mejorar progresivamente el modelo.
Whisk Animate: animaciones a partir de imágenes con IA
Además de la funcionalidad integrada en Gemini, Google ha extendido las capacidades de Veo 2 al proyecto Whisk, una herramienta de Google Labs que permite generar imágenes mediante IA. A través de la nueva función Whisk Animate, los usuarios de planes AI Premium de Google One pueden transformar imágenes generadas previamente en vídeos animados de 8 segundos.
Aunque Whisk Animate ya está disponible de forma global, su acceso se limita a los usuarios que cuenten con una suscripción activa a un plan AI Premium. Esta funcionalidad no se encuentra disponible actualmente en España.
Whisk fue presentado en diciembre como una plataforma de exploración visual basada en prompts textuales e imágenes de entrada, y con la incorporación de la animación, extiende sus usos potenciales hacia la generación de secuencias visuales breves con IA.
Expansión gradual del uso de IA generativa en vídeo
La incorporación de Veo 2 en Gemini Advanced y su ampliación mediante Whisk Animate forman parte de la estrategia de Google por integrar la inteligencia artificial generativa en herramientas de uso general. Aunque aún con restricciones técnicas y geográficas, esta tecnología abre nuevas vías para la creación de contenidos visuales a partir de texto, con un enfoque que prioriza la trazabilidad, la seguridad y la supervisión algorítmica.