Publication:
Evaluating the Performance of DeepSeek 3, Claude Sonnet 4, and Gemini 2.5 in the Chilean Medical Licensing Examination: Observational Study.

dc.contributor.authorJerez Yañez, Oscar
dc.contributor.authorEdgardo, Vicente Alberto
dc.contributor.authorSilva Arroyo, Jesús
dc.contributor.authorVera Cartes, Marcos Jeremías Giovanny
dc.contributor.authorHerrera Alcaíno, Alvaro Andrés
dc.contributor.authorLancellotti Guajardo, Anaís Aracelly
dc.contributor.departmentSin departamento asociado
dc.coverage.spatialChile
dc.date.accessioned2026-02-06T16:31:29Z
dc.date.available2026-02-06T16:31:29Z
dc.date.issued2025
dc.description.abstractIntroduction: Artificial intelligences and their continuous improvement have revolutionized medical education, but their performance in specific evaluative contexts still requires further exploration. Methods: This study qualitatively evaluated and compared the performance of three state-of-the-art language models — Claude Sonnet 4, Gemini 2.5, and DeepSeek 3 — in simulations of the National Medical Knowledge Examination (EUNACOM) in Chile. Three mock exams with 180 questions each were used, covering various medical areas and question types, including those based on clinical cases. Results: The results show that all AI models consistently passed the exams, with Claude Sonnet 4 achieving the highest overall performance (89% accuracy) and the greatest consistency across attempts. Clinical case-based questions were answered more accurately than theoretical knowledge questions, highlighting the models' strength in contextual clinical reasoning. Claude excelled in Internal Medicine and Psychiatry, DeepSeek in Surgery, and Gemini demonstrated balanced performance. However, specific gaps were identified in areas such as Public Health and clinical follow-up, suggesting the need for model-specific adjustments. Conclusion: The findings support the educational potential of these tools but also emphasize the importance of their ethical, supervised, and complementary use alongside traditional medical training. This study contributes to understanding the emerging role of artificial intelligence in professional assessments, as well as its limitations and opportunities within the Chilean medical context.
dc.description.abstractLa inteligencias artificial y su mejora continua han revolucionado la educación médica, pero su desempeño en contextos evaluativos específicos aún requiere mayor exploración. Métodos: Este estudio evaluó y comparó cualitativamente el desempeño de tres modelos de lenguaje de última generación —Claude Sonnet 4, Gemini 2.5 y DeepSeek 3— en simulaciones del Examen Nacional de Conocimientos Médicos (EUNACOM) en Chile. Se utilizaron tres exámenes simulados con 180 preguntas cada uno, que abarcaban diversas áreas médicas y tipos de preguntas, incluidas las basadas en casos clínicos. Resultados: Los resultados muestran que todos los modelos de IA aprobaron los exámenes de forma consistente, y Claude Sonnet 4 logró el mayor desempeño general (89% de precisión) y la mayor consistencia en todos los intentos. Las preguntas basadas en casos clínicos se respondieron con mayor precisión que las preguntas de conocimiento teórico, lo que destaca la fortaleza de los modelos en el razonamiento clínico contextual. Claude sobresalió en Medicina Interna y Psiquiatría, DeepSeek en Cirugía y Gemini demostró un desempeño equilibrado. Sin embargo, se identificaron deficiencias específicas en áreas como la salud pública y el seguimiento clínico, lo que sugiere la necesidad de realizar ajustes específicos a cada modelo. Conclusión: Los hallazgos respaldan el potencial educativo de estas herramientas, pero también enfatizan la importancia de su uso ético, supervisado y complementario a la formación médica tradicional. Este estudio contribuye a comprender el papel emergente de la inteligencia artificial en las evaluaciones profesionales, así como sus limitaciones y oportunidades en el contexto médico chileno.
dc.formatapplication/pdf
dc.format.extent9
dc.identifier.citationLancellotti Guajardo, A. A., Jerez Yañez, O., Silva Arroyo, V. A. E. J., Vera Cartes, M. J. G., & Herrera Alcaíno, Álvaro A. (2025). Evaluación del desempeño de DeepSeek 3, Claude Sonnet 4 y Gemini 2.5 en el examen de licencia médica chileno: estudio observacional. Revista Española De Educación Médica, 6(5).
dc.identifier.doihttps://doi.org/10.6018/edumed.679731
dc.identifier.eissn2660-8529
dc.identifier.urihttp://hdl.handle.net/10201/201202
dc.languageeng
dc.publisherServicio de Publicaciones. Universidad de Murcia
dc.relationSin financiación externa a la Universidad
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectMedical education
dc.subjectEUNACOM
dc.subjectClinical reasoning
dc.subjectLanguage models
dc.subjectMedical assessment
dc.subjectInteligencia artificial
dc.subjectEducación médica
dc.subjectRazonamiento clínico
dc.subjectModelos de lenguaje
dc.subjectEvaluación médica
dc.subjectArtificial intelligence
dc.subject.odsNo relacionado con ningún objetivo de desarrollo sostenible
dc.titleEvaluating the Performance of DeepSeek 3, Claude Sonnet 4, and Gemini 2.5 in the Chilean Medical Licensing Examination: Observational Study.
dc.title.alternativeEvaluación del desempeño de DeepSeek 3, Claude Sonnet 4 y Gemini 2.5 en el examen de licencia médica chileno: estudio observacional.
dc.typeinfo:eu-repo/semantics/article
dspace.entity.typePublication
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
IA+Performance+Chile+MLE.pdf
Size:
311.64 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.37 KB
Format:
Item-specific license agreed upon to submission
Description: