Google genera IA que puede procesar textos, vídeos y audios largos

Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez.

15 de febrero 2024

Google presentó este jueves, para un grupo exclusivo de desarrolladores, Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez, incluyendo una hora de video, once horas de audio, 30,000 líneas de código o más de 700,000 palabras.

“Hace unos años, memorizar u obtener el contexto de cientos de palabras era bastante complicado e incluso si retrocedemos a la década de 1950, cuando (Claude) Shannon (el matemático que inventó la teoría de la información) imaginaba modelos de lenguaje, solo analizaba dos palabras de contexto”, comentó Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini, ante los medios.

Para ilustrar las capacidades de Gemini 1.5 Pro, Vinyals mostró, mediante un video pregrabado, cómo el modelo podía analizar un texto de 402 páginas de transcripciones del Apolo 11, la histórica misión que llevó al primer ser humano a la Luna, y encontrar tres citas humorísticas.

Mundo

Qué es el error 1076 de Gemini, la falla que dejó sin servicio a la inteligencia artificial de Google y mantiene afectados a usuarios este 10 de junio

Además de trabajar con texto, los usuarios podrán interactuar con el modelo mediante fotos o dibujos. En una demostración en el video de presentación, un usuario proporcionó a Gemini 1.5 Pro un simple dibujo de una bota pisando el suelo y solicitó: “¿Qué momento representa esto? Proporciona una cita exacta”.

La máquina respondió con la famosa cita del astronauta Neil A. Armstrong: “Ese es un pequeño paso para el hombre”.

Vinyals exhibió otros ejemplos similares, utilizando como base una película muda de 45 minutos de Buster Keaton, en lugar de un texto.

En cuanto a la programación, en un comunicado, la empresa señaló: “Puede abordar tareas de resolución de problemas más complejas en bloques de código más extensos. Cuando se le presenta un fragmento con más de 100,000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y ofrecer explicaciones sobre el funcionamiento de las diferentes partes del código”.

“En cierto sentido, funciona de manera muy similar a nuestro cerebro”, explicó Vinyals.

Gemini 1.5 opera a un nivel similar al 1.0 Ultra, el modelo más avanzado de Google hasta la fecha.

En un comunicado del director ejecutivo de Google y Alphabet, Sundar Pichai, se indica que Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones mucho más útiles.

“Nos complace ofrecer una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales”, subrayó Pichai.

A partir de hoy, algunos desarrolladores y clientes de la nube podrán comenzar a trabajar con 1.0 Ultra, utilizando la interfaz de programación de aplicaciones (API) Gemini en AI Studio y Vertex AI.

En relación con las ‘alucinaciones’ -respuestas bien estructuradas pero incorrectas- Vinyals señaló que sigue siendo un desafío en el campo de la IA en general, en el cual se continúa trabajando.

La semana pasada, Google renombró su chatbot con inteligencia artificial (IA) de Bard a Gemini, anunció que esta tecnología estará disponible en una nueva aplicación Gemini para Android y a través de la aplicación de Google en iOS, y también lanzó una versión “avanzada” de pago que utiliza Gemini 1.0 Ultra.

Sigue nuestro canal de WhatsApp

Recibe las noticias más importantes del día. Da click aquí

Te recomendamos

Temas relacionados

Google genera IA que puede procesar textos, vídeos y audios largos

Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez.

Mundo

Te recomendamos

Google pide permiso para liberar millones de mosquitos en California y Florida y la Agencia de Protección Ambiental se encuentra en revisión; podrían liberar 16 millones de mosquitos por año en cada estado de EEUU, durante un periodo de dos años

Toy Story 5 llega con sorpresa: Así puedes activar el juego oculto de Google gratis desde celular y computadora

Meta lanza suscripciones de pago para Facebook, Instagram y WhatsApp con precios mensuales desde 2.99 dólares y 3.99 dólares en un cambio global de su modelo de negocio para depender menos de la publicidad digital y enfrentar mayores costos por inversión en inteligencia artificial

Visa habilita pagos a ChatGPT para que agentes de inteligencia artificial compren y paguen en nombre del usuario

WhatsApp

Telegram

Google genera IA que puede procesar textos, vídeos y audios largos

Gemini 1.5 Pro, un modelo de inteligencia artificial (IA) capaz de procesar grandes volúmenes de datos de una sola vez.

Mundo

Te recomendamos

Google pide permiso para liberar millones de mosquitos en California y Florida y la Agencia de Protección Ambiental se encuentra en revisión; podrían liberar 16 millones de mosquitos por año en cada estado de EEUU, durante un periodo de dos años

Toy Story 5 llega con sorpresa: Así puedes activar el juego oculto de Google gratis desde celular y computadora

Meta lanza suscripciones de pago para Facebook, Instagram y WhatsApp con precios mensuales desde 2.99 dólares y 3.99 dólares en un cambio global de su modelo de negocio para depender menos de la publicidad digital y enfrentar mayores costos por inversión en inteligencia artificial

Visa habilita pagos a ChatGPT para que agentes de inteligencia artificial compren y paguen en nombre del usuario

Boletín

WhatsApp

Telegram