Evaluating the Performance of DeepSeek 3, Claude Sonnet 4, and Gemini 2.5 in the Chilean Medical Licensing Examination: Observational Study.

Jerez Yañez, Oscar; Edgardo, Vicente Alberto; Silva Arroyo, Jesús; Vera Cartes, Marcos Jeremías Giovanny; Herrera Alcaíno, Alvaro Andrés; Lancellotti Guajardo, Anaís Aracelly

Publication:
Evaluating the Performance of DeepSeek 3, Claude Sonnet 4, and Gemini 2.5 in the Chilean Medical Licensing Examination: Observational Study.

dc.contributor.author	Jerez Yañez, Oscar
dc.contributor.author	Edgardo, Vicente Alberto
dc.contributor.author	Silva Arroyo, Jesús
dc.contributor.author	Vera Cartes, Marcos Jeremías Giovanny
dc.contributor.author	Herrera Alcaíno, Alvaro Andrés
dc.contributor.author	Lancellotti Guajardo, Anaís Aracelly
dc.contributor.department	Sin departamento asociado
dc.coverage.spatial	Chile
dc.date.accessioned	2026-02-06T16:31:29Z
dc.date.available	2026-02-06T16:31:29Z
dc.date.issued	2025
dc.description.abstract	Introduction: Artificial intelligences and their continuous improvement have revolutionized medical education, but their performance in specific evaluative contexts still requires further exploration. Methods: This study qualitatively evaluated and compared the performance of three state-of-the-art language models — Claude Sonnet 4, Gemini 2.5, and DeepSeek 3 — in simulations of the National Medical Knowledge Examination (EUNACOM) in Chile. Three mock exams with 180 questions each were used, covering various medical areas and question types, including those based on clinical cases. Results: The results show that all AI models consistently passed the exams, with Claude Sonnet 4 achieving the highest overall performance (89% accuracy) and the greatest consistency across attempts. Clinical case-based questions were answered more accurately than theoretical knowledge questions, highlighting the models' strength in contextual clinical reasoning. Claude excelled in Internal Medicine and Psychiatry, DeepSeek in Surgery, and Gemini demonstrated balanced performance. However, specific gaps were identified in areas such as Public Health and clinical follow-up, suggesting the need for model-specific adjustments. Conclusion: The findings support the educational potential of these tools but also emphasize the importance of their ethical, supervised, and complementary use alongside traditional medical training. This study contributes to understanding the emerging role of artificial intelligence in professional assessments, as well as its limitations and opportunities within the Chilean medical context.
dc.description.abstract	La inteligencias artificial y su mejora continua han revolucionado la educación médica, pero su desempeño en contextos evaluativos específicos aún requiere mayor exploración. Métodos: Este estudio evaluó y comparó cualitativamente el desempeño de tres modelos de lenguaje de última generación —Claude Sonnet 4, Gemini 2.5 y DeepSeek 3— en simulaciones del Examen Nacional de Conocimientos Médicos (EUNACOM) en Chile. Se utilizaron tres exámenes simulados con 180 preguntas cada uno, que abarcaban diversas áreas médicas y tipos de preguntas, incluidas las basadas en casos clínicos. Resultados: Los resultados muestran que todos los modelos de IA aprobaron los exámenes de forma consistente, y Claude Sonnet 4 logró el mayor desempeño general (89% de precisión) y la mayor consistencia en todos los intentos. Las preguntas basadas en casos clínicos se respondieron con mayor precisión que las preguntas de conocimiento teórico, lo que destaca la fortaleza de los modelos en el razonamiento clínico contextual. Claude sobresalió en Medicina Interna y Psiquiatría, DeepSeek en Cirugía y Gemini demostró un desempeño equilibrado. Sin embargo, se identificaron deficiencias específicas en áreas como la salud pública y el seguimiento clínico, lo que sugiere la necesidad de realizar ajustes específicos a cada modelo. Conclusión: Los hallazgos respaldan el potencial educativo de estas herramientas, pero también enfatizan la importancia de su uso ético, supervisado y complementario a la formación médica tradicional. Este estudio contribuye a comprender el papel emergente de la inteligencia artificial en las evaluaciones profesionales, así como sus limitaciones y oportunidades en el contexto médico chileno.
dc.format	application/pdf
dc.format.extent	9
dc.identifier.citation	Lancellotti Guajardo, A. A., Jerez Yañez, O., Silva Arroyo, V. A. E. J., Vera Cartes, M. J. G., & Herrera Alcaíno, Álvaro A. (2025). Evaluación del desempeño de DeepSeek 3, Claude Sonnet 4 y Gemini 2.5 en el examen de licencia médica chileno: estudio observacional. Revista Española De Educación Médica, 6(5).
dc.identifier.doi	https://doi.org/10.6018/edumed.679731
dc.identifier.eissn	2660-8529
dc.identifier.uri	http://hdl.handle.net/10201/201202
dc.language	eng
dc.publisher	Servicio de Publicaciones. Universidad de Murcia
dc.relation	Sin financiación externa a la Universidad
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.accessRights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Medical education
dc.subject	EUNACOM
dc.subject	Clinical reasoning
dc.subject	Language models
dc.subject	Medical assessment
dc.subject	Inteligencia artificial
dc.subject	Educación médica
dc.subject	Razonamiento clínico
dc.subject	Modelos de lenguaje
dc.subject	Evaluación médica
dc.subject	Artificial intelligence
dc.subject.ods	No relacionado con ningún objetivo de desarrollo sostenible
dc.title	Evaluating the Performance of DeepSeek 3, Claude Sonnet 4, and Gemini 2.5 in the Chilean Medical Licensing Examination: Observational Study.
dc.title.alternative	Evaluación del desempeño de DeepSeek 3, Claude Sonnet 4 y Gemini 2.5 en el examen de licencia médica chileno: estudio observacional.
dc.type	info:eu-repo/semantics/article
dspace.entity.type	Publication