Google esta semana puso a disposición la última iteración de su herramienta VEO Video Generation para los usuarios de su programa de inteligencia artificial Gemini que tiene una cuenta «Pro» o «Ultra».
VEO ha estado disponible en vista previa desde hace algún tiempo. Lo nuevo con la última implementación es la capacidad de comenzar su video cargando una imagen fija para servir como marco inicial. (Prakhar Khanna de Zdnet ha informado su experiencia utilizando la capacidad como una característica incorporada de su teléfono Honor 400, en lugar de usarlo a través del sitio web como yo).
Cómo usar VEO para generar videos a partir de fotos
Usted le da al sistema un mensaje, presione ENTER y VEO crea un video de ocho segundos usando su foto cargada como punto de referencia desde el cual construir el primer cuadro de video. VEO agrega sonido, que incluye música, pasos y otros incidentes.
Los videos toman varios minutos a la vez para desarrollarse.
En mis pruebas hasta ahora, encuentro la implementación de VEO fascinante y un poco espeluznante.
Mis resultados con la función de foto a video de Veo
Probé varias imágenes fijas que había tomado, incluida una selfie y algo de fotografía callejera. Ver las fotos cobrar vida, por así decirlo, es discordante. Es desconcertante de qué tan bien funciona y, como fotógrafo, es desconcertante de cómo el resultado contrasta con la memoria del evento.
Los buenos aspectos son la calidad del video, que está en consonancia con la imagen fotográfica. Las cosas como la perspectiva de una escena generalmente se mantienen bien, y los objetos en movimiento en el fondo están, en algunos casos, bien orquestados para ser consistentes.
1. Jogger corriendo a lo largo del paseo
Aquí, por ejemplo, hay un video que tomé de un corredor en el Promenade de East River en Manhattan. Le di el aviso de Veo: «Por favor, haga un video en el que el corredor continúe llegando a la distancia a lo largo del paseo».
A continuación se muestra la imagen aún original seguida del video VEO.
https://www.youtube.com/watch?v=yocxwncct4
El movimiento del corredor es bueno, al igual que el movimiento en el espacio como desde el punto de vista del fotógrafo.
Este es un logro técnico sustancial, en mi opinión, en un nivel muy básico. Recuerde que esto es ocho segundos de resolución de calidad de 720p, que se representa a la tasa de película estándar de 24 cuadros por segundo. Eso significa que VEO tiene que crear, en unos minutos, 192 cuadros desde la imagen inicial. Dado el poco esfuerzo que me llevó como usuario, sería fácil pasar por alto cuán significativo es desde un punto de vista puramente técnico. El poder de toda esa computación en la nube realmente brilla en algo como esto.
Sin embargo, uno también ve los artefactos que surgen de las predicciones de Google sobre los marcos, dando a la cosa una calidad bastante misteriosa.
El corredor de la derecha, por uno, realmente no se ve igual que el corredor en mi foto, solo vagamente similar (el cabello es diferente, el zancamiento es diferente).
Otro artefacto es que, en el momento real, la figura que se movía hacia la cámara en el lado izquierdo de la imagen estaba paseando, no corriendo. Creo que está claro en la imagen. Pero Veo también hizo que esa persona trote también.
Otro elemento emerge en la carretera FDR Drive en la esquina superior izquierda. Uno puede ver vehículos que desaparecen misteriosamente en algún momento de su movimiento. Ese es un tema constante de los videos VEO, la incapacidad del programa para mantener completamente la continuidad.
2. Mujer caminando junto a la barra de herradura
Un logro sorprendente surgió cuando presenté una fotografía de un bar en la calle 7 en el East Village, llamado 7b, o el bar Horseshoe. Agregué el aviso: «¿Puedes mostrarle a la mujer pasando por el edificio?»
https://www.youtube.com/watch?v=5_ef5_4htye
El video resultante muestra una buena perspectiva de la calle, pero lo que es realmente sorprendente es que logró llenar el letrero blanco sobre la puerta del lado invisible del edificio que muestra el símbolo de herradura. Eso sugiere que VEO pudo encontrar en algunos datos una finalización de la barra, lo cual es bastante sorprendente.
Sin embargo, los edificios invisibles que VEO llena, a medida que el video gira la esquina, no son los edificios reales en esa calle, un caso de VEO con un sustituto razonablemente decente. Observe un artefacto fuerte: Veo le dio al individuo a caminar un sombrero azul, que parecía haber agregado erróneamente en función de la persona en mi fotografía caminando frente a un letrero azul en el edificio.
3. La persona con botas blancas se levanta y se levanta en tren
Algunos artefactos son más llamativos. En un segundo pedazo de fotografía callejera, subí una foto de alguien sentado en un automóvil de metro con botas blancas. Le di el aviso: «La persona en las botas blancas se levanta de su asiento y se levanta del tren». Lo que se produjo fue bastante llamativo y bastante bueno para una aproximación de cómo podría moverse esta figura. Sin embargo, la persona no sale del tren.
https://www.youtube.com/watch?v=d7ltdpumvou
Cuando persistí con un segundo aviso, «Eso es genial, pero un ajuste. ¿Es posible mostrar las puertas de la apertura del automóvil y la persona en las botas blancas que realmente sale por las puertas para salir del tren?», Veo produjo una segunda versión.
https://www.youtube.com/watch?v=AMTGQC72HPO
Esta vez, el individuo al menos se muestra moviéndose hacia una salida, ya que las puertas se muestran abiertas. Sin embargo, varios artefactos aquí faltan una prueba de realidad y consistencia. Por un lado, nadie sale de un auto metálico de la ciudad de Nueva York en el final del automóvil; Salen a las puertas laterales, ya que ahí es donde está la plataforma. En segundo lugar, las puertas correderas representadas al final del automóvil no existen en los autos de metro de la ciudad de Nueva York. Esas salidas tienen una, no dos, puertas correderas.
En tercer lugar, está claro en la imagen de Still original, basada en la luz y los detalles vistos a través de la ventana trasera del automóvil del tren, que este no es el último automóvil de la línea; Hay otro auto detrás de esto. Sin embargo, cuando las puertas se abren en el video, vemos la plataforma y las pistas, lo que sugiere que este automóvil es ahora el último automóvil en la línea. Es una incapacidad aquí para que VEO infiera adecuadamente de detalle la estructura total del medio ambiente.
Por último, pero no menos importante, en una cuarta inconsistencia, podemos ver a través de la puerta abierta que la plataforma está directamente debajo del tren, para que el tren sea, cabalgando sobre la plataforma, en lugar de las vías.
4. Truenos y relámpagos con lluvia
Presenté una foto nocturna lluviosa en Lexington Avenue en Manhattan y pedí «un video de truenos y relámpagos y lluvias serias en esta escena de la calle». El resultado es bastante caricaturesco, pero ciertamente es un momento divertido con la intención correcta.
https://www.youtube.com/watch?v=kmmcbz7m714
5. Selfie de baño oscuro
Poner la imagen de uno en VEO tiene su propio espeluznante especial, o diversión, o ambos, dependiendo de su sentido del humor.
Primero usé una selfie de baño muy oscura. Me impresionó la gama de animación imaginativa. Sin embargo, mis características parecen transformarse drásticamente en la semejanza de otra persona, y no estoy seguro de quién. (Me han dicho que a veces me parece a Thom Yorke de la banda Radiohead).
https://www.youtube.com/watch?v=hd9txlalp_i
6.
En otro caso, usé mi tiro en la cabeza de ZDNet y le pregunté a Veo: «¿Puedes hacer un video de este hombre haciendo el cha-cha-cha?» Me gusta el movimiento resultante, la música acompañante, y los sonidos de botas muy fuertes son muy divertidos.
https://www.youtube.com/watch?v=m4va0ivd7oo
Sin embargo, la parte espeluznante aquí es que sin más información, Veo ha dejado a mi cara una máscara de expresión rígida, lo que no tiene sentido en un video de baile. De hecho, mi cabeza realmente no se mueve en absoluto; está arreglado.
7. Selfie de Las Vegas
Subí otra selfie más, tomada en el Caesar’s Palace Casino and Hotel en Las Vegas, y le indicé: «Por favor, haga un video de este hombre con la chaqueta de cuero bailando tango con la estatua de Venus que está en el fondo». Bueno, Veo no logró hacernos bailar, pero el espectáculo de piso resultante de mi semejanza es divertido. También lo es la música. Observe que las mangas de mi chaqueta de cuero se vuelven negras, por alguna razón.
https://www.youtube.com/watch?v=lsuqj67p-sc
8. Un combate histórico con John C. Calhoun
En la corazonada de que manipular las figuras históricas podrían ser rechazadas, intenté crear una combinación histórica para probar el asunto. Subí una foto del vicepresidente de los Estados Unidos, John C. Calhoun, de la Biblioteca del Congreso de los Estados Unidos, y solicité que Veo hiciera un video de Calhoun bailando el Cha-Cha-Cha.
Veo comenzó a hacer un video, luego renunció con el mensaje: «No puedo generar ese video. Intenta describir otra idea. También puedes obtener consejos sobre cómo escribir indicaciones y revisar nuestras pautas de política de video. Obtenga más información».
9. Hacer reír a Scarlett
Luego intenté subir una foto del actor/director Scarlett Johansson desde su página de Wikipedia, y solicité «un video de esta mujer riendo». Nuevamente comenzó y luego renunció con el mismo mensaje de error.
10. Haciéndome reír
Comprobé el asunto con mi propio tiro en la cabeza, como una persona no histórica y no famosa, y pude conseguir VEO para hacer un video de mí riendo (aunque no se parece en absoluto al tiro en la cabeza original).
https://www.youtube.com/watch?v=7vzgayvnzc0
Eso sugiere que VEO puede construirse con salvaguardas contra la manipulación de imágenes de cultura histórica o pop, aunque no puedo estar seguro.
¿Deberías probar Google Veo?
El servicio VEO, en vista previa, ciertamente no está exenta de problemas técnicos.
Después de mi primer par de éxitos, repetidamente obtuve una advertencia de que tendría que esperar para hacer más videos, ya que el servicio está limitado por la tarifa en este momento. Hay quejas sobre esto en el usuario Foran para Géminis, incluidas las personas que se les niega el servicio por más de 24 horas, y una larga explicación del asunto por un «experto» de un producto voluntario. Básicamente, el video es de ancho de banda, de cómputo y memoria, por lo que no es sorprendente que Google tenga que limitar el uso desde el principio.
La solución más directa es actualizar al mayor nivel de Géminis, el plan «Ultra», aunque esto significa pasar de $ 19.99 al mes a $ 249 al mes (descuento durante los primeros tres meses a $ 125). Ese es un precio elevado solo para poder evitar lo que parecen límites bastante duros.
Incluso después de suscribirme a Ultra, alcancé un límite después de cinco videos, con un mensaje de error que decía «algo salió mal». Otra publicación explicadora en el foro de usuarios sugiere que no hay un límite claro para el plan Ultra; Es un asunto oscuro de «créditos» de IA en el servicio en la nube.
Ese cierre repentino contradice los términos de servicio de Google que dicen: «Recibirá una notificación cuando esté cerca del límite. La notificación le dirá cuántos videos le quedan». (Obtenga más información en la sección de ayuda de Gemini Apps sobre varios límites de Géminis).
La alternativa a Ultra es aún más compleja, utilizando la herramienta de desarrollo profesional de «flujo» en lugar de la aplicación Gemini.
Además de los límites de uso, los usuarios se han quejado de problemas técnicos, como videos que carecen de sonido.
La impresión general es que este es en gran medida un producto beta.
Puede preguntarse sobre los peligros de los videos de Deepfake. Google ha publicado una serie de puntos sobre medidas de seguridad para las aplicaciones Gemini en general, pero no hay una declaración clara sobre los videos VEO.
En general, Veo me parece un truco interesante, aunque VEO no tiene interés después de que la fascinación inicial se ha desgastado. Como fotógrafo, estoy más interesado en un solo momento auténtico que en 192 momentos no auténticos.
Para aquellos que no están involucrados en la industria del cine, VEO puede proporcionar una ventana sobre cómo la IA puede usarse cada vez más para completar a los actores o extender las semejanzas para crear acciones sin emplear realmente a los actores.
Dados los algoritmos más fuertes y los datos adicionales (datos de escena, datos de caracteres, etc.), me imagino que Hollywood podría usar esta tecnología para producir imágenes móviles que sirven historias reales. Es una revelación sobre hacia dónde va el video en una era de IA.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.