La IA se ha hecho tan lista que el mejor test que había para comprobar su inteligencia ya no sirve. Han tenido que crear uno nuevo

Publicado el

marzo 25, 2025

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

Existe un benchmark que proxenetismo de puntuar la inteligencia de los modelos de IA con una particularidad: su resolución es extremadamente difícil para los modelos de IA, pero dócil para el razonamiento humano.

La primera competición para alcanzar la máxima puntuación de este benchmark (ARC-AGI), fue superada por el maniquí o3 (low) de OpenAI en un 75,7% y en un 87,5% (o3 high). A OpenAI le llevó cuatro primaveras advenir en 2020 de un 0% con GPT-3 a un 5% en 2024 con GPT-4o. Y entregado que los modelos de razonamiento profundo son cada vez más sofisticados, ARC-AGI vuelve con una interpretación mejorada de su benchmark que se lo pondrá muy difícil a los modelos de IA del momento, y que igualmente podemos resolver nosotros mismos.

ARC-AGI, un test sorprendentemente difícil para la IA, pero dócil para los humanos

En 2019, François Chollet -creador de Keras, una biblioteca de estudios profundo de código amplio adoptada por más de dos millones de desarrolladores-, publicó 'On the Measure of Intelligence', donde introdujo el 'Corpus de generalización y razonamiento para la inteligencia genérico químico' (ARC-AGI) de remisión para determinar la inteligencia.

Desde entonces, se ha consolidado como un test fiable que prueba las capacidades de una IA donde los participantes independientes y compañías ponen a prueba sus soluciones en una competición, la ARC Prize. En 2025, la competición se realizará sobre ARC-AGI 2, con grandes mejoras respecto a su predecesor.

Resultados de múltiples modelos de IA en ARC-AGI 2. Imagen: ARC Prize

El nuevo conjunto de pruebas ha sido diseñado específicamente para desafiar el razonamiento de los modelos de IA (aunque el objetivo es testear las capacidades de una AGI) , manteniendo un seguridad entre su dificultad extrema para la IA y su accesibilidad para los humanos.

Una de las mejoras secreto de ARC-AGI-2 es el aumento del número de tareas en todos los conjuntos de evaluación, pasando de 100 a 120. Esta ampliación escudriñamiento ofrecer una maduro pluralidad y complejidad en los retos planteados. Encima, se han eliminado todas aquellas tareas que podían ser resueltas mediante estrategias de fuerza bruta o mediante enfoques algorítmicos predefinidos. De este modo, el desafío se centra en el explicación de una verdadera capacidad de razonamiento en las IA, en espacio de acatar de soluciones basadas en una búsqueda exhaustiva o lenguajes específicos.

Uno de los miles de puzles que cuenta ARC-AGI 2. Imagen: ARC Prize

Otra novedad importante es la incorporación de pruebas que abordan aspectos secreto del pensamiento racional, como la interpretación simbólica, el razonamiento composicional y la aplicación de reglas contextuales. Se ha demostrado que los sistemas de IA tienen serias dificultades para asignar significado a símbolos, combinar múltiples reglas simultáneamente o adaptar sus respuestas en función del contexto.

Mientras tanto, cualquier persona puede resolver estos problemas con nacionalidad. Para avalar la validez de estos resultados, todas las tareas han sido sometidas a pruebas con personas reales en un estudio controlado, asegurando que los conjuntos de evaluación sean comparables y estadísticamente sólidos. De hecho, si tienes curiosidad, puedes ponerte tú igualmente a prueba resolviendo los mismos puzles a los que los modelos de IA se enfrentan con este benchmark.

Útil web para resolver los puzles de ARC-AGI

Para ello, lo único que tienes que hacer es dirigirte al siguiente enlace y pretender el nivel de dificultad y test (v1 y v2, uno y otro en versiones fáciles y difíciles). Los puzles muestran composiciones de figuras que nosotros tendremos que resolver en colchoneta a los ejemplos que nos exponen. En la web podemos editar los cuadros, copiar desde los ejemplos, rellenar con colores las zonas y más. Una vez tengamos registro nuestra decisión, tendremos que validarla.

Demuestran que solo se necesita un Mac de hace 20 años con 1 GB de RAM para ejecutar una potente IA. El secreto está en su CPU

Entre los cambios en la competición de 2025 igualmente han traído mejoras significativas. El premio principal ha aumentado de 600.000 a 700.000 dólares para los que logren pasar el benchmark, manteniendo los premios adicionales para la mejor puntuación y la mejor publicación científica. Encima, los capital computacionales disponibles para los participantes se han duplicado, lo que permite realizar pruebas más intensivas sin comprometer la calidad de las soluciones.

Para acrecentar la transparencia y evitar el sobreajuste, los equipos deberán hacer públicas sus soluciones antiguamente de aceptar la evaluación final sobre el conjunto privado de tareas. Asimismo, se han introducido mejoras en la clasificación en tiempo auténtico de la plataforma Kaggle, donde las puntuaciones se basarán en un conjunto semi-privado de pruebas, con la evaluación definitiva realizándose solo al final de la competición.

Otra novedad es la ampliación del periodo de billete, que ahora se extiende de marzo a noviembre de 2025, ofreciendo más tiempo para la investigación y el explicación de estrategias.

El provocación planteado por ARC-AGI-2 ha demostrado ser insuperable para las soluciones actuales de inteligencia químico. Mientras que los modelos basados exclusivamente en grandes modelos de jerga al punto que logran resultados en torno al 0 %, incluso las soluciones más avanzadas, como o3 de OpenAI, no superan el 5 %. En contraste, cada una de las tareas ha sido resuelta por al menos dos participantes humanos en menos de dos intentos, lo que evidencia la brecha existente entre el razonamiento humano y el procesamiento algorítmico presente.

Imagen de portada | AGI Prize

En Genbeta | Los expertos temían un 'invierno de la inteligencia químico' hace tan solo un año. La existencia ha destrozado esa teoría

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

La IA se ha hecho tan lista que el mejor test que había para comprobar su inteligencia ya no sirve. Han tenido que crear uno nuevo

ARC-AGI, un test sorprendentemente difícil para la IA, pero dócil para los humanos

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

La IA se ha hecho tan lista que el mejor test que había para comprobar su inteligencia ya no sirve. Han tenido que crear uno nuevo

ARC-AGI, un test sorprendentemente difícil para la IA, pero dócil para los humanos

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes