Publication: ¿Es capaz GPT-4 de aprobar el MIR 2023? Comparativa entreGPT-4 y ChatGPT-3 en los exámenes MIR 2022 y 2023
Authors
Cerame del Campo, Álvaro ; Juaneda, Juan ; Estrella Porter, Pablo ; Puente, Lucía de la ; Navarro, Joaquín ; García, Eva ; Sánchez, Domingo A. ; Carrasco, Juan Pablo
item.page.secondaryauthor
item.page.director
Publisher
Universidad de Murcia. Servicio de publicaciones
publication.page.editor
publication.page.department
DOI
https://doi.org/10.6018/edumed.604091
item.page.type
info:eu-repo/semantics/article
Description
Abstract
Introducción: La inteligencia artificial (IA) está generando nuevas controversias, oportunidades y riesgos en la educación médica. Este estudio evalúa la capacidad de las versiones de inteligencia artificial (IA) ChatGPT-3 y GPT-4 para responder a las preguntas del examen de acceso a la formación médica especializada MIR en España, comparando el rendimiento entre las convocatorias de 2022 y 2023. Metodología: Se realizó un estudio descriptivo transversal, utilizando GPT-4 para responder a las210 preguntas del examen MIR 2023, comparando los resultados con los de ChatGPT-3 en el examen MIR 2022. Se utilizó análisis estadístico para determinar el porcentaje de acierto en función de la especialidad, tipo de pregunta y contenido de la misma. Resultados: GPT-4 consiguió 173 aciertos de un total de 210 preguntas, rendimiento superior al deChatGPT-3, que obtuvo 108 aciertos en el examen de la convocatoria anterior. Se observó una mejora notable en especialidades como Reumatología, Pediatría, Geriatría y Oncología, aunque algunos campos como Neumología y Oftalmología mostraron menos progreso o incluso resultados inferiores. Conclusión: GPT-4 demostró un mejor rendimiento en comparación con ChatGPT-3, indicando avances en el procesamiento y análisis de datos por parte de la IA, así como en su comprensión contextual y aplicación de conocimientos médicos. Sin embargo, se enfatiza la importancia de reconocer las limitaciones de la IA y la necesidad de un enfoque crítico en su uso en educación médica
rtificial intelligence (AI) is generating new controversies, opportunities andchallenges in medical education. This study evaluates the ability of artificial intelligence (AI)versions ChatGPT-3 and GPT-4 to answer MIR exam questions of the entrance exam in thespecialized training in Spain, comparing performance between the 2022 and 2023 exams.Methodology: A descriptive cross-sectional study was conducted, using GPT-4 to answer the 210questions of the MIR 2023 exam, comparing the results with those of ChatGPT-3 in the MIR 2022exam. Statistical analysis was used to determine the percentage of correct answers according tospeciality, type of question, and question content.Results: GPT-4 achieved 173 correct answers out of 210 questions, a higher performance thanChatGPT-3, which obtained 108 correct answers in the previous exam. A marked improvementwas observed in specialties such as Rheumatology, Paediatrics, Geriatrics and Oncology, althoughsome fields such as Pneumology and Ophthalmology showed less progress or even lower results.Conclusion: GPT-4 demonstrated better performance compared to ChatGPT-3, indicatingadvances in AI data processing and analysis, as well as in its contextual understanding andapplication of medical knowledge. However, the article emphasizes the importance of recognisingthe limitations of AI and the need for a critical approach in medical education
rtificial intelligence (AI) is generating new controversies, opportunities andchallenges in medical education. This study evaluates the ability of artificial intelligence (AI)versions ChatGPT-3 and GPT-4 to answer MIR exam questions of the entrance exam in thespecialized training in Spain, comparing performance between the 2022 and 2023 exams.Methodology: A descriptive cross-sectional study was conducted, using GPT-4 to answer the 210questions of the MIR 2023 exam, comparing the results with those of ChatGPT-3 in the MIR 2022exam. Statistical analysis was used to determine the percentage of correct answers according tospeciality, type of question, and question content.Results: GPT-4 achieved 173 correct answers out of 210 questions, a higher performance thanChatGPT-3, which obtained 108 correct answers in the previous exam. A marked improvementwas observed in specialties such as Rheumatology, Paediatrics, Geriatrics and Oncology, althoughsome fields such as Pneumology and Ophthalmology showed less progress or even lower results.Conclusion: GPT-4 demonstrated better performance compared to ChatGPT-3, indicatingadvances in AI data processing and analysis, as well as in its contextual understanding andapplication of medical knowledge. However, the article emphasizes the importance of recognisingthe limitations of AI and the need for a critical approach in medical education
publication.page.subject
Citation
Revista Española de Educación Médica. Vol. 5 Núm. 2 (2024)
item.page.embargo
Ir a Estadísticas
Este ítem está sujeto a una licencia Creative Commons. http://creativecommons.org/licenses/by-nc-nd/4.0/