
ARTDEPARTMENT

Google DeepMind presentó Genie 3, un maniquí del mundo (world model) capaz de ocasionar entornos 3D en tiempo actual a partir de una imagen o de una indicación de texto. La compañía sostiene que este nuevo operación no solo amplía las posibilidades de crear experiencias educativas, creativas y enfocadas en videojuegos, sino que todavía representa un paso importante en dirección a la inteligencia industrial genérico, aquella que investigación igualar o exceder las habilidades cognitivas humanas.
The Black Box Lab, una agencia de exposición de negocios, explica que los modelos mundiales son algoritmos que construyen representaciones internas de un entorno, lo que permite a las soluciones de IA aparentar eventos y predecir resultados futuros basados en dichas emulaciones. Este enfoque investigación replicar los procesos de razonamiento humano para dotar a las máquinas de una comprensión más profunda del contexto físico.
Según un artículo de TechCrunch, un maniquí generativo entrenado con abriles de video puede identificar con precisión que una pelota de baloncesto rebota, pero carece de la capacidad para entender por qué ocurre. En cambio, un maniquí del mundo posee “una comprensión básica” de las causas del retroceso, lo que le permite representar el engendro y anticipar movimientos futuros con viejo exactitud.
Google lleva tiempo destinando importantes bienes a la investigación de esta tecnología. A finales del año pasado, la empresa presentó Genie 2, un maniquí capaz de crear mundos interactivos a partir de imágenes. En enero, Google formó un equipo especializado en desarrollar modelos del mundo, liderado por Tim Brooks, quien fuera codirector del esquema Sora de OpenAI.
Con Genie 3, la compañía alcanza su viejo avance en este campo: se comercio del primer maniquí del mundo de Google que permite la interacción en tiempo actual y perfeccionamiento notablemente la consistencia y el realismo respecto a su predecesor.
El nuevo operación genera automáticamente entornos virtuales en 3D que los usuarios o agentes de IA pueden explorar “durante varios minutos”. Aunque los desarrolladores no precisan una duración exacta, esta extensión supone un gran brinco respecto a los 10 a 20 segundos que ofrecía Genie 2.
Las simulaciones se producen a una resolución de 720 píxeles y 24 fotogramas por segundo. Por otra parte, son compatibles con “eventos mundiales con indicaciones”, lo que significa que pueden modificarse mediante comandos que cambien aspectos como el clima o la inclusión de nuevos personajes en la suceso.
This content can also be viewed on the site it originates from.
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!