En la conferencia Google I/O 2025, la inteligencia industrial (IA) no solo ha sido protagonista como útil de productividad o como complemento a las búsquedas web, sino asimismo como útil creativa dirigida a un notorio amplio, incluyendo usuarios profesionales. De hecho, Google ha presentado toda una nueva engendramiento de modelos generativos capaces de crear imágenes de inscripción calidad, vídeos con sonido realista e incluso composiciones musicales interactivas.
Con estos modelos, Google deja claro su intento de liderar el sector de la IA generativa, con una propuesta de creatividad colaborativa... entre humanos e IA:
Imagen 4: precisión visual y diseño tipográfico impecable
Imagen 4 es la cambio del conocido maniquí de engendramiento de imágenes de Google. Está apto en la app de Gemini, en herramientas como Google Slides, Docs, Vids y en el entorno empresarial Vertex AI., y sus principales novedades incluyen:
- Calidad fotográfica con detalles impresionantes: desde telas intrincadas hasta gotas de agua o pelaje de animales.
- Resoluciones de hasta 2K, ideales para impresión o presentaciones profesionales.
- Capacidad tipográfica descubierta, que permite originar textos correctamente escritos adentro de las imágenes, útil para pósters, cómics o tarjetas.
- Velocidad mejorada: se anunció asimismo una variable rápida que es hasta 10 veces más veloz que Imagen 3.
- Circunstancias: El maniquí Imagen fue introducido por Google en 2022 como un competidor directo de DALL·E y otros generadores de imágenes a partir de texto. Desde sus primeras versiones, Imagen destacó por su fidelidad semántica a las descripciones y por su honestidad visual. En Imagen 2 y 3, se fortalecieron aspectos como el realismo de las texturas y la coherencia compositiva, lo que permitió su integración en productos como Google Slides. Con Imagen 4, el maniquí da un brinco extraordinario en resolución, detalles finos y habilidades tipográficas, posicionándose como una útil inventario para el diseño profesional y la impresión de inscripción calidad.
Veo 3: vídeo con sonido integrado
Google ha presentado Veo 3, su nuevo maniquí de engendramiento de vídeo, que marca un hito al ser el primer maniquí de IA de Google que genera vídeo con audio nativo. Entre sus capacidades más destacadas:
- Coexistentes audiovisual completa: los usuarios pueden crear escenas con ruidos ambientales, diálogos y música de fondo a partir de simples descripciones en verbo natural.
- Física realista y sincronización labial precisa.
- Comprensión novelística: Veo entiende y representa visualmente historias sugeridas por el usufructuario.
Veo 3 está apto en el plan Google AI Extremista y se integra con la nueva útil creativa Flow, así como con Vertex AI para empresas.
Incluso se han valiente nuevas funciones en Veo 2, como:
- Referencias visuales (personajes, estilos, objetos).
- Controles de cámara: rotaciones, zooms, travellings.
- Outpainting para expandir la ámbito.
- Añadir o eliminar objetos con coherencia espacial.
- Circunstancias: El esquema Veo comenzó como un esfuerzo para originar clips de vídeo breves y sin sonido a partir de texto, compitiendo con modelos como Make-A-Video de Meta o Runway. Veo 2 trajo mejoras en continuidad, control de cámara y consistencia entre escenas, permitiendo a cineastas ensayar con narrativas visuales. Sin retención, estos vídeos carecían de un componente esencial: el sonido.
Con Veo 3, Google rompe esta barrera al integrar audio nativo, permitiendo por primera vez la creación de escenas completas con ruidos ambientales, diálogos y música, lo que lo convierte en el maniquí más liberal en su categoría hasta la data.
Todos los contenidos generados por Imagen 4, Veo 3 y Lyria 2 llevan integradas marcas de agua invisibles
Flow: cine generado por IA
Flow es la nueva útil de Google para filmmaking con IA, diseñada para narradores visuales. Combina el poder de Veo, Imagen y Gemini para permitir:
- Crear clips cinematográficos a partir de prompts en verbo natural.
- Controlar instrumentos como el guion, la puesta en ámbito, los personajes, el estilo visual y la música.
- Usar activos personalizados o generarlos adentro del mismo entorno.
- Aceptar a capital como Flow TV, donde se pueden explorar clips creados por otros, ver sus prompts y memorizar nuevas técnicas.
Flow está apto para los suscriptores de Google AI Pro y Extremista en EE. UU.
- Circunstancias: Flow nace como la cambio de VideoFX, una iniciativa práctico rejonazo en Google Labs en 2024 para explorar la creación de videos a partir de prompts textuales. Aunque inicialmente era una simple interfaz para interactuar con modelos como Veo, el potencial creativo observado entre cineastas y artistas llevó a Google a desarrollar Flow como una plataforma integral. Su lectura flagrante se ha convertido en un entorno completo de producción novelística, combinando los modelos más potentes de Google (Veo, Imagen y Gemini) y ofreciendo herramientas de storyboard y estampado cinemática, todo impulsado por IA.
Lyria 2: música generada (y controlada, y personalizada...)
En el ámbito musical, Google presenta Lyria 2, un maniquí de composición descubierta, y su entorno de pruebas Music AI Sandbox, ahora apto para músicos y productores. Sus capacidades incluyen:
- Composición musical a partir de prompts.
- Exploración interactiva con Lyria RealTime, que permite crear música en tiempo actual y controlar dinámicamente los resultados.
- Integración con YouTube Shorts y Vertex AI para creadores y empresas.
Estas herramientas fueron desarrolladas en colaboración con artistas y productores para fijar que la IA actúe como colaboradora creativa, no como reemplazo.
- Circunstancias: El maniquí musical Lyria surgió en 2023 como parte de la iniciativa MusicLM de Google, diseñada para modificar texto en música, manteniendo estructuras armónicas coherentes. Lyria 1 permitió ensayar con melodías, géneros y tempo, aunque con limitaciones en control y personalización. Con el impulso de Lyria 2 y el entorno Music AI Sandbox, Google abrió un paipay de posibilidades para músicos profesionales: herramientas de composición, mezcla, interpretación en tiempo actual (Lyria RealTime) y colaboración en plataformas como YouTube Shorts.
Imagen | Marcos Merino mediante IA
En Genbeta |