
ARTDEPARTMENT

Gemini, el asistente de inteligencia fabricado (IA) de Google, ahora incorpora la tecnología de Project Astra, una plataforma que permite a la IA obtener contexto multimodal a través de video. Gracias a esta integración, el chatbot ahora puede “ver” e interpretar la información que aparece en la pantalla de un smartphone.
La puesta al día permite a la aparejo de público inteligente aprender los contenidos visualizados en pantalla. Esto posibilita a los usuarios realizar consultas en tiempo efectivo a Gemini sobre lo que ven mientras navegan por internet, juegan un videojuego o exploran cualquier material multimedia.
La función Live del bot inteligente incluso ha ampliado sus capacidades para aceptar a la cámara del dispositivo móvil. De este modo, los usuarios pueden interactuar con el asistente basándose en lo que la cámara capta en el momento. Estas funciones se activan mediante un pitón integrado en la interfaz de Gemini. Por el momento, solo están disponibles en inglés para un familia selecto de suscriptores de Gemini Advanced interiormente del plan Google One AI Premium.
Las nuevas mejoras se basan en la tecnología de Project Astra, anunciada por Google DeepMind el año pasado. Esta plataforma fue desarrollada con el objetivo de habilitar los sistemas de IA para "entender y contestar al mundo enredado y dinámico como lo hacen las personas". Dota a los algoritmos de la capacidad de aprovechar y recapacitar lo que “ven y escuchan”, lo que les permite comprender mejor el contexto y contestar de forma más precisa a las solicitudes de los usuarios.
La propuesta se apoya en los modelos de IA más avanzados de Google y otros diseñados para tareas específicas. Esta combinación permite a los bots procesar la información con maduro celeridad mediante la codificación continua de fotogramas de video, la integración de entradas de video y voz en una cuerda temporal de acontecimientos, y el almacenamiento en elegancia de estos datos para solucionar su recuperación y uso posterior.
Por otro banda, Google ha incorporado la función Audio Overview a Gemini, permitiendo a los usuarios ocasionar resúmenes de audio (similares a un podcast) de cualquier documento o de los resultados obtenidos mediante Deep Research, la aparejo de búsqueda profunda de Google.
La compañía explica que "Gemini creará un debate estilo podcast entre dos presentadores de IA que, con un solo clic, iniciarán una conversación dinámica y profunda basada en los archivos que subas. Resumirán el material, establecerán conexiones entre temas, participarán en un intercambio activo y aportarán perspectivas únicas".
Esta nueva función está adecuado en la lectura web y en las aplicaciones móviles de Gemini para los suscriptores de Gemini Advanced a nivel total en inglés. Se prórroga que próximamente se amplíe el soporte a más idiomas. Para convertir un resultado de Google Deep Research en un podcast, puntada con preferir la opción "Gestar recapitulación de audio" debajo de la respuesta y comenzar a escuchar el contenido resumido.
Las ambiciosas actualizaciones de Gemini reflejan la creciente competencia por el liderazgo en la IA de consumo masivo, una carrera impulsada por el éxito de ChatGPT y reforzada por las iniciativas de otras empresas.
Amazon anunció recientemente el tirada de Alexa+, una lectura mejorada de su asistente, que incorpora IA para amparar conversaciones en jerigonza natural, realizar descomposición multimodales y demostrar conciencia contextual. Por su parte, Apple ha confirmado que trabaja en una puesta al día similar para Siri, aunque el tesina se ha retrasado por inconvenientes técnicos.
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!