ARTDEPARTMENT
Unos investigadores de la Universidad de California afirman que dos modelos de verbo —GPT-4.5 y LLaMa-3.1-405B— han superado el Test de Turing, la famosa prueba ideada por Alan Turing para evaluar la 'humanidad' de la inteligencia sintético. Pero, ¿eso significa que estamos frente a un cierto brinco en la cognición de la IA? ¿O es un exclusivo indicador de un examen mal diseñado y/o ejecutado?
Hace 75 primaveras, Alan Turing propuso su test como un examen para determinar si las máquinas podían ser consideradas 'inteligentes'. En esta prueba, un interrogador humano interactúa simultáneamente con un humano y una máquina a través de una interfaz de texto, y debe identificar cuál de los dos es el humano. Si la máquina logra engañar al interrogador, se considera que ha pasado la prueba.
Aunque esta idea ha sido objeto de intensos debates y múltiples intentos a lo grande de las décadas, hasta ahora ningún sistema había acabado exceder este desafío en su formato innovador.
Pero el estudio que nos ocupa, desarrollado por Cameron R. Jones y Benjamin K. Bergen, sometió a varios LLMs (los dos ya mencionados, pegado a ELIZA y GPT-4o) a una lectura rigurosa del test innovador.
Así, se basó en conversaciones simultáneas de cinco minutos entre un interrogador humano, otro humano y un maniquí de IA, a través de una interfaz de chat. La sorpresa fue que, en muchos casos, los interrogadores eligieron a la IA como el interlocutor humano.
Cuando a los chatbots se les dotó de una "personalidad" específica (la de jóvenes introvertidos interesados en la civilización de internet), el maniquí GPT-4.5 fue identificado como humano en el 73% de los casos, mientras que LLaMa-3.1 alcanzó un 56% (de nuevo, cuando se le dotó de 'personalidad')...
...mientras que, cuando esos mismos modelos carecían de 'personalidad' añadida, lograron tasas mucho más bajas (36% y 38%, respectivamente). Los otros dos modelos, que sólo fueron probados 'sin personalidad', obtuvieron tasas significativamente inferiores al exclusivo azar (un 21% GPT-4o, y un 23% ELIZA).
Sin confiscación, este resultado ha sido recibido con reservas: un examen más detallado de las conversaciones, (que los propios autores han hecho públicas), revela interacciones muchas veces banales y poco inquisitivas, en las que predominan preguntas simples sobre programas de televisión favoritos o actividades diarias.
Un comentarista de Hacker News sintetizó así qué opinaba tras adivinar las conversaciones:
"Los participantes no intentaron en realidad desenmascarar a una IA. Querían su crédito docente y pronto".
Otros señalan que el problema podría ocurrir sido otro: que la predisposición a tratar a los interlocutores con cortesía o evitar preguntas incómodas pudo ocurrir favorecido a las IA.
Ambas críticas plantea un debate crucial: si los interrogadores no aplican estrategias verdaderamente desafiantes, ¿es válido proponer que los modelos 'engañaron' a humanos?
Aquí se reabre un debate filosófico sobre la naturaleza del test de Turing. ¿Debe ser una prueba donde los humanos hagan todo lo posible por detectar a la máquina, o pespunte con que el maniquí no se destaque como sintético en una conversación típica?
Algunos usuarios argumentan que si se exige un interrogatorio extremadamente sofisticado (como pedir explicaciones de chistes o razonamiento sensato profundo) estamos alejándonos del test de Turing y acercándonos más a un test de IA normal (AGI).
Sin confiscación, como sostienen otros usuarios, contraer un criterio menos estricto pone en duda la relevancia de este distinguido test, porque "siempre se puede engañar a un humano lo suficientemente perezoso".
Muchos participantes afirmaron haberse guiado por 'corazonadas', ayer que por el examen sensato, las estrategias más exitosas fueron las menos frecuentes: hacer afirmaciones inusuales o tratar de "romper" al maniquí con comandos propios de jailbreaks.
Pero, ¿esta poltronería es atribuible sólo a los participantes del examen, o es poco más generalizado en la especie humana?
Como medida de control, se incluyó ELIZA, que ni siquiera es técnicamente un LLM, aunque sí el primer chatbot nones creado y un ejemplo de la rudimentaria IA de los primaveras 60.
Sus datos fueron sobrado pobres, siendo confundido con un humano sólo en el 23% de las ocasiones. No obstante, el hecho de que algunos aún creyeran que este chatbot era humano evidencia un engendro psicológico conocido como el 'efecto ELIZA', por el cual las personas tienden a antropomorfizar a las máquinas.
Su creador, Joseph Weizenbaum, descubrió hace ya casi 60 primaveras que incluso sus propios colaboradores atribuían inteligencia y/o sentimientos humanos a ELIZA:
"No me había entregado cuenta de que las exposiciones extremadamente cortas a un software informático relativamente simple podrían inducir un poderoso pensamiento delirante en personas sobrado normales".
Más allá de debates metodlógicos, este examen sigue planteando preguntas relevantes: si una IA puede hacerse acontecer por un humano sin ser detectada —incluso si es sólo por un sabido poco estricto—, ¿qué riesgos plantea esto a mercancía de manipulación (estafas, desinformación) o de cara al futuro del empleo?
Imagen | Marcos Merino mediante IA
En Genbeta | Qué es el test de la manzana y por qué es muy útil para ver cómo de potente es una inteligencia sintético
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!