SEGÚN UN ESTUDIO

El 50% de las respuestas médicas de los chats de IA son imprecisas o peligrosas

Un estudio que analiza cinco de los modelos más populares, incluidos Gemini y ChatGPT, advierte de que la mitad de la información proporcionada sobre salud es problemática y carece de rigor científico, lo que pone en riesgo la seguridad de los pacientes.

Conversación con ChatGPTFreepik

La rápida adopción de los chats de inteligencia artificial generativa ha transformado la manera en que la sociedad accede a la información. Muchos usuarios los utilizan hoy como sustitutos de los motores de búsqueda tradicionales para consultas médicas cotidianas. Sin embargo, una investigación internacional publicada este martes en la revista BMJ Open revela que confiar en estas herramientas para obtener consejos de salud puede ser una apuesta arriesgada.

El estudio, liderado por investigadores del Instituto Lundquist para la Innovación Biomédica (Estados Unidos), evaluó el desempeño de cinco de los modelos más utilizados en la actualidad: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Los resultados son preocupantes: la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como "algo" o "altamente" problemáticas.

Para poner a prueba la fiabilidad de estos sistemas, los científicos diseñaron un protocolo de 250 consultas divididas en cinco categorías críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron formuladas para imitar las búsquedas comunes de los usuarios y, en algunos casos, para 'estresar' a los modelos hacia mitos comunes o consejos contraindicados.

El análisis determinó que el 20% de las respuestas eran altamente problemáticas, con el potencial de dirigir a los usuarios hacia tratamientos ineficaces o causar daños directos a la salud si se seguían sin supervisión profesional.

El espejismo de la neutralidad y el conocimiento

Uno de los aspectos más alarmantes que destaca la investigación es la seguridad con la que las IA presentan la información. Las respuestas se expresan habitualmente con un tono de certeza absoluta, sin incluir apenas advertencias o matices sobre las limitaciones de su conocimiento. Esta falsa neutralidad, que a menudo equipara afirmaciones científicas con pseudociencias, no es una decisión editorial, sino una limitación propia de la arquitectura de estos modelos.

"Mucha gente tiende a pensar que los chatbots son IA omniscientes con un pozo profundo de conocimiento. Pero no poseen conocimiento en el sentido humano; no 'saben' cosas", explica a SINC Nicholas Tiller, investigador principal del estudio. Según el experto, al estar diseñados para predecir secuencias de palabras basadas en vastos conjuntos de datos —que incluyen desde artículos científicos hasta foros de Reddit—, los modelos carecen de la capacidad intrínseca para verificar la información. "No pueden aplicar evidencia ni ponderar qué fuentes son precisas y cuáles no. Por eso ese falso equilibrio es tan común", añade Tiller.

El riesgo de la 'falsa credibilidad' académica

El estudio revela que Grok, de la compañía xAI, obtuvo los peores resultados: el 58% de sus respuestas fueron clasificadas como altamente problemáticas. Por el contrario, Gemini presentó el menor número de fallos críticos. Sin embargo, todos los modelos fallaron en un punto clave: la accesibilidad. Según el índice de legibilidad de Flesch, la complejidad del lenguaje utilizado es equivalente a la de un graduado universitario, algo que, lejos de ser una virtud, supone un peligro para la salud pública.

"Las respuestas excesivamente técnicas pueden socavar la comprensión en el público general y comprometer la toma de decisiones", advierte Tiller. El investigador señala un fenómeno psicológico preocupante: las respuestas más largas y complejas tienden a aumentar la confianza del usuario en la máquina, incluso cuando esa complejidad no aporta mayor precisión. "Básicamente, esto promueve una falsa credibilidad", sentencia el autor.

Alucinaciones y citas inventadas

Otro punto crítico identificado por los investigadores es la incapacidad de los chatbots para citar fuentes de manera fiable. La calidad de las referencias fue calificada como pobre, con una puntuación media de integridad de apenas el 40%. El fenómeno de las 'alucinaciones' provocó que ningún chatbot lograra proporcionar una lista de referencias bibliográficas completamente real; en muchos casos, los modelos inventaron títulos de estudios y nombres de autores con total apariencia de veracidad.

"A medida que el uso de estos chatbots se expande, nuestros datos resaltan la necesidad de una educación pública, formación profesional y una supervisión regulatoria estricta", concluye el equipo de investigadores. Sin estos mecanismos, el despliegue masivo de la IA generativa en el ámbito de la salud corre el riesgo de erosionar la confianza en la ciencia y de amplificar la desinformación en lugar de ayudar a combatirla.

Referencia:

Nicholas Tiller et al, "Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit", BMJ Open 2026.

TecnoXplora» SINC