La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el acierto se desploma estrepitosamente

Publicado el

junio 15, 2025

Hace primaveras que hay estudios que evidencian que la inteligencia fabricado brilla en medicina, al menos sobre el papel: ya hemos trillado que alcanza el sobresaliente en el MIR de 2025 o que GPT-4 vence a los médicos a la hora de diagnosticar enfermedades. Pero como paciente, de tu profesional de la medicina esperas poco más que un sobresaliente en una prueba.

Al fin y al lugar, la carrera de medicina tiene una extensa pulvínulo teórica, pero igualmente una dilatada parte de destreza: no sirve de nadie que te sepas todos y cada uno de los huesos del cuerpo y luego te desmayes al ver crimen. Y aquí la inteligencia fabricado se marea, según un estudio reciente de la Universidad de Oxford.

Los chatbots IA de vigor pueden ser el nuevo teléfono estropeado

Así, el paper concluye que aunque los modelos de verbo egregio (LLM) son capaces de identificar correctamente el 94,9% de condiciones relevantes en los escenarios de prueba por sí solos, cuando hay humanos usando esos mismos LLM para el dictamen de esos mismos casos, el porcentaje de identificación de esas condiciones descendía por debajo del 34,5%. Es más, esas mismas personas eran capaces de autodiagnosticarse mejor usando métodos de toda la vida que normalmente emplearían en casa.

El quid de la cuestión que plantea el equipo de investigación de la universidad británica es resaltar la idoneidad o no de usar IA para el asesoramiento médico y qué criterios se emplean para evaluar la implantación de chatbots.

INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"

El estudio. En la investigación liderada por el Dr. Adam Mahdi participaron 1.298 personas que simularon ser pacientes delante un LLM. Su objetivo era descubrir su dolencia y qué nivel de atención requerían, desde el autocuidado hasta tachar a una ambulancia. Cada persona recibió un proscenio detallado de dolencias como el resfriado global o la pulmonía, así como más contexto personal de su vida e historial médico.

Para el estudio usaron tres modelos: el popular GPT-4o, Lumbre 3 por ser de código descubierto y Command R+. A partir de aquí, cada persona debía interactuar al menos una vez con el maniquí para ofrecer los datos proporcionado: debían investigar su dictamen y qué hacer a posteriori. Asimismo, había un equipo médico detrás encargado de determinar la bono correspondiente adecuada a cada proscenio.

Siete prompts de ChatGPT que te ayudarán a ahorrar muchísimo tiempo en tu día a día

En Genbeta

Siete prompts de ChatGPT que te ayudarán a reservar muchísimo tiempo en tu día a día

Réprobo número humano. Con una aparejo con tanto potencial para el dictamen cabría esperar que fuera pan comido, pero no. Entre las causas del estrepitoso descenso en la efectividad se encuentran proporcionar información incompleta, como por ejemplo suprimir la ubicación, severidad y frecuencia del dolor. Pero aunque los modelos ofrecieran la información correcta, la familia no siempre seguía las recomendaciones.

Como explica Nathalie Volkheimer, entendido en experiencia de sucesor en el Instituto de Computación Renacentista de la Universidad de Carolina del Ártico en Chapel Hill para Venture Beat, es un poco como los primeros días de las búsquedas en internet. "Como aparejo, los LLM requieren indicaciones escritas con cierto naturaleza de calidad, especialmente si se calma una salida de calidad".

Asimismo, destaca que alguno con un dolor salvaje no va a ofrecer buenos prompts. De hecho, profundiza en que los clínicos que tratan pacientes reciben formación sobre cómo preguntar e insistir, ya que a veces los pacientes omiten información proporcionadamente porque no saben que es relevante o hasta por vergüenza. Concluye que la secreto de todo está en la interacción humano - tecnología.

El estudio pone sobre la mesa una ingenuidad que pasión menos la atención que el titular de que una IA costal notazas en exámenes de medicina o derecho: se explora su pulvínulo de conocimientos, pero no evaluamos cómo interactuará ese chatbot con personas reales. Para conseguir los mejores resultados con una inteligencia fabricado hace errata usar buenos prompts pero la vida y la familia no los usa.

La biblioteca de prompts de Anthropic es una joya para conseguir mejores resultados con cualquier inteligencia artificial

En Genbeta

La biblioteca de prompts de Anthropic es una alhaja para conseguir mejores resultados con cualquier inteligencia fabricado

En pocas palabras: una cosa es aprobar un examen de conocimientos y otra asimilar desenvolverse con personas. Ahí es donde la IA se hunde, confundiéndose y ofreciendo respuestas equivocadas o inútiles. No ha sido entrenado para guerrear con la imprecisión o pedir aclaraciones. Y según las pruebas del equipo de Mahdi, siquiera usar la IA para evaluar a otra IA es una buena idea, ya que se entienden mejor. Hacen errata humanos, pero no todo el mundo tiene 1.300 personas para el rodaje.

En cualquier caso, la incumplimiento no es del sucesor. Igual que resulta frustrante conversar con Google Assistant, Siri, Alexa y los asistentes de voz en normal para poco que no sean cuatro órdenes cortas y claras, el aspecto a mejorar advierte Volkheimer es la interacción con el maniquí y las personas.

"Lo primero es preguntar por qué. Pero no un ‘por qué’ superficial: uno profundo, investigativo, específico, antropológico, psicológico. Ese es el punto de partida".

Resulta esencial entender a la audiencia, sus metas y la experiencia de sucesor ayer de desplegar un chatbot. De lo contrario el resultado serán respuestas genéricas y erróneas. No es casualidad que la familia odie a los chatbots: "no es porque los chatbots sean terribles o técnicamente defectuosos. Es porque lo que se les metió es malo" concluye la esxperta. Posteriormente de todo, quienes desarrollan la tecnología, información y procesos son personas, que tienen sus sesgos, suposiciones, defectos y igualmente virtudes.

En Genbeta | Si quieres memorizar inteligencia fabricado desde casa, estos 13 cursos son a los que yo me apuntaría

Portada | Xataka con Freepik Pikaso

-
La novedad

La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el descubrimiento se desploma estrepitosamente

fue publicada originalmente en

Genbeta

por
Eva R. de Luis

.

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el acierto se desploma estrepitosamente

Los chatbots IA de vigor pueden ser el nuevo teléfono estropeado

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el acierto se desploma estrepitosamente

Los chatbots IA de vigor pueden ser el nuevo teléfono estropeado

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes