ARTDEPARTMENT

Solicitar una consulta

OpenAI tenía que dejarnos con la boca abierta con Sora esta semana. En su lugar lo hizo Google con esta IA gratis que nos adelanta

Publicado el 
diciembre 13, 2024

En estos últimos días, tanto OpenAI (inmerso en su campaña de 12 días consecutivos de anuncios navideños) como Google han ofrecido novedades relativas a sus principales IAs, ChatGPT (y Sora), por un costado, y Gemini, por otro. Mientras que la compañía liderada por Sam Altman ostenta el liderato en la carrera por la IA, Google está obligado a ser más angurriento y exceder el tabla impuesto por su rival.

Y todo indica que el asalto de esta semana se lo lleva Google, que, con el tiro de Gemini 2.0 Flash, logra marcar un hito en la crecimiento de la IA multimodal (combinando texto, imágenes, vídeo y audio en tiempo vivo) y redefinir cómo interactuamos con la tecnología.

Y de paso, claro, todavía intensifica la competencia entre los gigantes del sector.

Gemini 2.0 Flash: La revolución multimodal en tiempo vivo

El tiro de Gemini 2.0 Flash representa un cambio de ideal en la IA. Ahora, los usuarios pueden interactuar en tiempo vivo con vídeos capturados desde sus teléfonos móviles, poco que antiguamente sólo habíamos podido ver en demostraciones. A través de Google AI Studio, cualquiera puede probar esta tecnología, que promete aplicaciones revolucionarias en educación, creación de contenido y más.

¿Qué ofrece Gemini 2.0? ¿Y qué tiene de exclusivo?

Empecemos respondiendo por el final: su sistema de descomposición de vídeo en tiempo vivo es infundado, está adecuado en escritorio y se puede usar en la UE... mientras que su función rival para ChatGPT no hace ninguna de esas cosas.

Tresenraya
Tresenraya

Gemini apunta stop, pero te ayuda con todo tipo de tareas (captura de vídeo de @JonhernandezIA)

¿Qué ofrece? Pues veamos...

  1. Interacción multimodal: Gemini 2.0 permite a los usuarios interactuar con la IA mediante la cámara de su dispositivo, la pantalla compartida e incluso comandos de voz. Desde analizar presentaciones de PowerPoint hasta sugerir mejoras en correos electrónicos, la IA puede interpretar el contexto visual y textual de forma simultánea.
  2. Velocidad: Aunque la interpretación Flash es la más básica, su rendimiento ya es impresionante. Ofrece prontitud y capacidades avanzadas, como identificar trampas en presentaciones o proporcionar alternativas creativas en tiempo vivo.
  3. Gratuidad y accesibilidad: En contraste con las herramientas premium de la competencia, Gemini 2.0 está adecuado de forma gratuita en Google AI Studio. Esto democratiza el comunicación a tecnologías avanzadas que antiguamente estaban limitadas a quienes podían remunerar altos costos.

La velocidad y el bajo coste eficaz de Gemini 2.0 Flash lo convierten en una útil accesible tanto para desarrolladores individuales como para empresas: su API en vivo facilita la integración con aplicaciones empresariales, posicionándose como un expediente esencia para industrias que buscan optimizar flujos de trabajo y disminuir costos.

Bill Gates coincide con Sam Altman sobre el futuro de la IA: todos tendremos un asistente de IA que cambiará cómo trabajamos

El tiro de Gemini 2.0 Flash posiciona a Google como líder momentáneo en la carrera por la IA multimodal

La competencia ChatGPT vs. Gemini

El tiro de Gemini 2.0 Flash no ocurre en un infructifero. Su rival directo todavía han cedido pasos significativos en el campo multimodal con el tiro de su 'Advanced Voice Mode' con visión en tiempo vivo, que permite analizar vídeo y compartir pantalla con su ChatGPT.

Las novedades relativas al 'Modo de Voz Innovador' de OpenAI hablan de un producto intuitivo y práctico, enfocado en la interacción diaria y el uso móvil. Sin confiscación, Google se incremento por ahora como el vencedor, pues Gemini 2.0 Flash parece estar en persona en términos de funcionalidad y potencial a dadivoso plazo...

...pues ofrece capacidades de descomposición de vídeo similares a las de su rival de OpenAI, pero con decano profundidad práctico; Gemini puede no solo identificar objetos y describir escenarios, sino todavía suscitar imágenes, ejecutar código y realizar acciones más complejas basadas en lo que 've'.

Así, circulan ya vídeos de Gemini 2.0 Flash guiando a creadores de contenido mientras usan software enredado como Adobe Premiere, indicando pasos detallados para realizar ediciones, incluso para usuarios novatos:

En epítome, OpenAI ofrece una experiencia más sencilla para usuarios casuales (cordial y accesible para el sucesor promedio, con una interfaz exclusivamente móvil que se asemeja a una videollamada tradicional), mientras que Google apunta a desarrolladores y empresas con herramientas más especializadas.

Imagen | Marcos Merino mediante IA

En Genbeta | La mejor nota de la arribada de Sora no es Sora, es ver que las IAs alternativas, infundado y open source, están a su pico

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram