
ARTDEPARTMENT

Hace primaveras que hay estudios que evidencian que la inteligencia fabricado brilla en medicina, al menos sobre el papel: ya hemos trillado que alcanza el sobresaliente en el MIR de 2025 o que GPT-4 vence a los médicos a la hora de diagnosticar enfermedades. Pero como paciente, de tu profesional de la medicina esperas poco más que un sobresaliente en una prueba.
Al fin y al lugar, la carrera de medicina tiene una extensa pulvínulo teórica, pero igualmente una dilatada parte de destreza: no sirve de nadie que te sepas todos y cada uno de los huesos del cuerpo y luego te desmayes al ver crimen. Y aquí la inteligencia fabricado se marea, según un estudio reciente de la Universidad de Oxford.
Así, el paper concluye que aunque los modelos de verbo egregio (LLM) son capaces de identificar correctamente el 94,9% de condiciones relevantes en los escenarios de prueba por sí solos, cuando hay humanos usando esos mismos LLM para el dictamen de esos mismos casos, el porcentaje de identificación de esas condiciones descendía por debajo del 34,5%. Es más, esas mismas personas eran capaces de autodiagnosticarse mejor usando métodos de toda la vida que normalmente emplearían en casa.
El quid de la cuestión que plantea el equipo de investigación de la universidad británica es resaltar la idoneidad o no de usar IA para el asesoramiento médico y qué criterios se emplean para evaluar la implantación de chatbots.
INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"
El estudio. En la investigación liderada por el Dr. Adam Mahdi participaron 1.298 personas que simularon ser pacientes delante un LLM. Su objetivo era descubrir su dolencia y qué nivel de atención requerían, desde el autocuidado hasta tachar a una ambulancia. Cada persona recibió un proscenio detallado de dolencias como el resfriado global o la pulmonía, así como más contexto personal de su vida e historial médico.
Para el estudio usaron tres modelos: el popular GPT-4o, Lumbre 3 por ser de código descubierto y Command R+. A partir de aquí, cada persona debía interactuar al menos una vez con el maniquí para ofrecer los datos proporcionado: debían investigar su dictamen y qué hacer a posteriori. Asimismo, había un equipo médico detrás encargado de determinar la bono correspondiente adecuada a cada proscenio.

Siete prompts de ChatGPT que te ayudarán a reservar muchísimo tiempo en tu día a día
Réprobo número humano. Con una aparejo con tanto potencial para el dictamen cabría esperar que fuera pan comido, pero no. Entre las causas del estrepitoso descenso en la efectividad se encuentran proporcionar información incompleta, como por ejemplo suprimir la ubicación, severidad y frecuencia del dolor. Pero aunque los modelos ofrecieran la información correcta, la familia no siempre seguía las recomendaciones.
Como explica Nathalie Volkheimer, entendido en experiencia de sucesor en el Instituto de Computación Renacentista de la Universidad de Carolina del Ártico en Chapel Hill para Venture Beat, es un poco como los primeros días de las búsquedas en internet. "Como aparejo, los LLM requieren indicaciones escritas con cierto naturaleza de calidad, especialmente si se calma una salida de calidad".
Asimismo, destaca que alguno con un dolor salvaje no va a ofrecer buenos prompts. De hecho, profundiza en que los clínicos que tratan pacientes reciben formación sobre cómo preguntar e insistir, ya que a veces los pacientes omiten información proporcionadamente porque no saben que es relevante o hasta por vergüenza. Concluye que la secreto de todo está en la interacción humano - tecnología.
El estudio pone sobre la mesa una ingenuidad que pasión menos la atención que el titular de que una IA costal notazas en exámenes de medicina o derecho: se explora su pulvínulo de conocimientos, pero no evaluamos cómo interactuará ese chatbot con personas reales. Para conseguir los mejores resultados con una inteligencia fabricado hace errata usar buenos prompts pero la vida y la familia no los usa.

La biblioteca de prompts de Anthropic es una alhaja para conseguir mejores resultados con cualquier inteligencia fabricado
En pocas palabras: una cosa es aprobar un examen de conocimientos y otra asimilar desenvolverse con personas. Ahí es donde la IA se hunde, confundiéndose y ofreciendo respuestas equivocadas o inútiles. No ha sido entrenado para guerrear con la imprecisión o pedir aclaraciones. Y según las pruebas del equipo de Mahdi, siquiera usar la IA para evaluar a otra IA es una buena idea, ya que se entienden mejor. Hacen errata humanos, pero no todo el mundo tiene 1.300 personas para el rodaje.
En cualquier caso, la incumplimiento no es del sucesor. Igual que resulta frustrante conversar con Google Assistant, Siri, Alexa y los asistentes de voz en normal para poco que no sean cuatro órdenes cortas y claras, el aspecto a mejorar advierte Volkheimer es la interacción con el maniquí y las personas.
"Lo primero es preguntar por qué. Pero no un ‘por qué’ superficial: uno profundo, investigativo, específico, antropológico, psicológico. Ese es el punto de partida".
Resulta esencial entender a la audiencia, sus metas y la experiencia de sucesor ayer de desplegar un chatbot. De lo contrario el resultado serán respuestas genéricas y erróneas. No es casualidad que la familia odie a los chatbots: "no es porque los chatbots sean terribles o técnicamente defectuosos. Es porque lo que se les metió es malo" concluye la esxperta. Posteriormente de todo, quienes desarrollan la tecnología, información y procesos son personas, que tienen sus sesgos, suposiciones, defectos y igualmente virtudes.
En Genbeta | Si quieres memorizar inteligencia fabricado desde casa, estos 13 cursos son a los que yo me apuntaría
Portada | Xataka con Freepik Pikaso
(function() {
window._JS_MODULES = window._JS_MODULES || {};
var headElement = document.getElementsByTagName('head')[0];
if (_JS_MODULES.instagram) {
var instagramScript = document.createElement('script');
instagramScript.src="https://platform.instagram.com/en_US/embeds.js";
instagramScript.async = true;
instagramScript.defer = true;
headElement.appendChild(instagramScript);
}
})();
-
La novedad
La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el descubrimiento se desploma estrepitosamente
fue publicada originalmente en
Genbeta
por
Eva R. de Luis
.
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!