Edición México
Suscríbete
Ed. México

El Imparcial / Tecnología / Google

Google estrena VideoPoet una nueva IA productor de videos

La empresa de tecnología multinacional estadounidense no planea quedarse atrás en el mercado de la inteligencia artificial.

Mexicali.- Google presenta VideoPoet, un nuevo modelo de lenguaje grande (LLM) para la generación de videos. Este modelo está diseñado para realizar una variedad de tareas que incluyen texto a video, imagen a video, estilización de video, pintura y pintura de vídeo y conversión de video a audio.

La empresa de tecnología multinacional estadounidense introdujo un nuevo modelo de lenguaje grande (LLM) que es multimodal y genera videos. Este modelo cuenta con capacidades de generación de video que nunca antes se habían visto en los LLM.

Google ha presentado VideoPoet, que afirman ser un LLM robusto que es capaz de procesar entradas multimodales como texto, imágenes y audio para generar videos. VideoPoet ha implementado una "arquitectura de solo descodificador" que le permite producir contenido para tareas en las que no ha recibido capacitación específica, pública el portal Indianexpress.

La formación de VideoPoet implica dos pasos similares a los LLM: formación previa y adaptación a tareas específicas. Según los investigadores, el LLM previamente capacitado es esencialmente el marco base que se puede personalizar para diversas tareas de generación de videos.

"VideoPoet es un método de modelado simple que puede convertir cualquier modelo de lenguaje autorregresivo o modelo de lenguaje grande (LLM) en un generador de video de alta calidad", se lee en una publicación en el sitio web.

¿Qué hace que VideoPoet sea diferente?

En comparación con los modelos de video predominantes que utilizan modelos de difusión que agregan ruido a los datos de entrenamiento y eventualmente los recrean, VideoPoet combina múltiples capacidades de generación de video en un modelo de lenguaje unificado. Mientras que otros modelos tienen componentes entrenados por separado para diferentes tareas, VideoPoet tiene todo integrado en un único LLM.

El modelo destaca en la conversión de texto a vídeo, de imagen a vídeo, de pintura y pintura de vídeo, de estilización de vídeo y de generación de vídeo a audio. Este modelo se conoce como modelo autorregresivo, lo que significa que crea resultados tomando señales de lo que generó anteriormente. Ha sido entrenado en video, audio, imagen y texto con tokenizadores para convertir la entrada para construir diferentes modalidades.

En el ámbito de la IA, la tokenización es esencialmente el proceso de convertir el texto de entrada en unidades más pequeñas, también conocidas como tokens, que podrían ser palabras o subpalabras. Esto es fundamental para el procesamiento del lenguaje natural, ya que permite a la IA comprender y analizar el lenguaje humano.

Según los científicos, los resultados son un testimonio del potencial prometedor de los LLM en el ámbito de la generación de vídeo. Creen que su marco admitiría el formato "cualquiera a cualquiera" en el futuro.

Curiosamente, VideoPoet también puede crear un cortometraje combinando numerosos videoclips. Los investigadores pidieron a Google Bard que escribiera un guión breve con indicaciones. Luego crearon un video a partir de las indicaciones y ensamblaron todo para crear un cortometraje.

El modelo también es capaz de tomar videos existentes y cambiar cómo se mueven los objetos en él, esto se puede explicar mejor con el ejemplo de la Mona Lisa bostezando.

En esta nota