
ARTDEPARTMENT

2025 iba a ser, según muchas previsiones, el año de los agentes: inteligencias artificiales capaces de hacerse cargo proyectos completos, planificar tareas, coordinar posibles y entregar resultados profesionales sin supervisión humana. El hype no solo estaba en el circunstancia: Microsoft hablaba de trabajadores IA.
La ingenuidad es otra, de momento. Un nuevo estudio de Scale AI ha querido comprobar hasta qué punto los grandes modelos actuales pueden desempeñar encargos reales de trabajo. Ausencia de benchmarks ininteligibles: las pruebas fueron proyectos freelance resales, evaluados por un panel de 40 jueces como si fueran clientes humanos. Abarcaban desde diseño de producto y avance de videojuegos hasta investigación de datos o redacción de textos científicos. Para expertos como Andrej Karpathy, cofundador de OpenAI, los agentes, simplemente, no están ahí.
Cuántos de esos trabajos alcanzarían un nivel "aceptable" para un cliente corriente. El maniquí Manus fue el que mejor rendimiento logró, y frente a lo que cabría esperar según las promesas, no fue brillante: solo el 2,5% de sus entregas fueron consideradas aceptables. A partir de ahí, todo fue a menos: Grok alcanzó un 2,1%, Claude se quedó en cifras similares, GPT-5 en un 1,7%, y Gemini 2.5 Pro acabó postrero 0,8%.

La ingenuidad de la IA agéntica total en 2025. Según las pruebas, menos de tres de cada cien proyectos presentados por los modelos más avanzados del mundo habrían superado el filtro de un cliente efectivo. Pero no es que la IA sea inútil. De hecho, un 2,5% es una número muy entrada considerando de dónde venimos y el ritmo de avance de la industria. Pero un encargo efectivo exige más que la precisión técnica demostrable en benchmarks.
Los modelos y agentes actuales son rápidos, versátiles y cada vez más coherentes, pero siguen allá de trabajar con autonomía y criterio humano. No priorizan, no contextualizan perfectamente y no entienden matices o expectativas.
Imagen | Xataka con Gemini
Vía | Antonio Ortiz en X
En Genbeta | Tras vencer su cuñado, llegó una estructura médica de 195.000 dólares. Lograron bajarla a 33.000 usando ChatGPT y Claude
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!