2025 iba a ser el año de los agentes capaces de sustituir personas. Pero la mejor IA solo es capaz de hacer el 2,5% de tareas humanas

Publicado el

noviembre 2, 2025

2025 iba a ser, según muchas previsiones, el año de los agentes: inteligencias artificiales capaces de hacerse cargo proyectos completos, planificar tareas, coordinar posibles y entregar resultados profesionales sin supervisión humana. El hype no solo estaba en el circunstancia: Microsoft hablaba de trabajadores IA.

La ingenuidad es otra, de momento. Un nuevo estudio de Scale AI ha querido comprobar hasta qué punto los grandes modelos actuales pueden desempeñar encargos reales de trabajo. Ausencia de benchmarks ininteligibles: las pruebas fueron proyectos freelance resales, evaluados por un panel de 40 jueces como si fueran clientes humanos. Abarcaban desde diseño de producto y avance de videojuegos hasta investigación de datos o redacción de textos científicos. Para expertos como Andrej Karpathy, cofundador de OpenAI, los agentes, simplemente, no están ahí.

Cuántos de esos trabajos alcanzarían un nivel "aceptable" para un cliente corriente. El maniquí Manus fue el que mejor rendimiento logró, y frente a lo que cabría esperar según las promesas, no fue brillante: solo el 2,5% de sus entregas fueron consideradas aceptables. A partir de ahí, todo fue a menos: Grok alcanzó un 2,1%, Claude se quedó en cifras similares, GPT-5 en un 1,7%, y Gemini 2.5 Pro acabó postrero 0,8%.

Los monopolios como Google o Meta crecen en cada revolución y es por una decisión de 1995 para la seguridad de un navegador viejo

La ingenuidad de la IA agéntica total en 2025. Según las pruebas, menos de tres de cada cien proyectos presentados por los modelos más avanzados del mundo habrían superado el filtro de un cliente efectivo. Pero no es que la IA sea inútil. De hecho, un 2,5% es una número muy entrada considerando de dónde venimos y el ritmo de avance de la industria. Pero un encargo efectivo exige más que la precisión técnica demostrable en benchmarks.

Los modelos y agentes actuales son rápidos, versátiles y cada vez más coherentes, pero siguen allá de trabajar con autonomía y criterio humano. No priorizan, no contextualizan perfectamente y no entienden matices o expectativas.

Imagen | Xataka con Gemini

Vía | Antonio Ortiz en X

En Genbeta | Tras vencer su cuñado, llegó una estructura médica de 195.000 dólares. Lograron bajarla a 33.000 usando ChatGPT y Claude

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

2025 iba a ser el año de los agentes capaces de sustituir personas. Pero la mejor IA solo es capaz de hacer el 2,5% de tareas humanas

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

2025 iba a ser el año de los agentes capaces de sustituir personas. Pero la mejor IA solo es capaz de hacer el 2,5% de tareas humanas

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes