Publication: Informe radiológico estructurado asistido por modelos de lenguaje en residentes de Radiología : piloto de implementación en Urgencias
Authors
García-Hidalgo, Clemente ; Consentino Hernández, José Antonio ; Cayuela Espí, José Vicente ; Pagán Vicente, Gonzalo ; Plasencia Martínez, Juana María ; Blanco Barrio, Ana ; Pérez Hernández, Gloria ; Moreno Pastor, Ana
item.page.secondaryauthor
item.page.director
Publisher
Universidad de Murcia, Servicio de Publicaciones
publication.page.editor
publication.page.department
DOI
https://doi.org/10.6018/edumed.695571
item.page.type
info:eu-repo/semantics/article
Description
Abstract
Objective: To evaluate whether a structured reporting system assisted by Large Language Models
(LLMs) can be practically integrated into the work of radiology residents during on-call shifts.
Secondary objectives included: describing format preferences through blind evaluation,
characterizing linguistic differences between manual and LLM-assisted reports, and identifying
perceived risks for a confirmatory study. Methods: A two-component pilot study was conducted.
Objetivo: Evaluar si un sistema de informe estructurado asistido por Large Language Models puede integrarse de forma práctica en el trabajo de residentes de Radiología durante las guardias. Como objetivos secundarios: describir preferencias de formato mediante evaluación ciega, caracterizar diferencias lingüísticas entre informes manuales y asistidos, e identificar riesgos percibidos para un estudio confirmatorio. Métodos: Estudio piloto con dos componentes. En la fase prospectiva, cuatro residentes generaron 480 informes alternando redacción manual y asistida por LLM (Custom GPT-4o). En paralelo, se analizaron 200 informes anonimizados de adjuntos para contextualizar las métricas. Se empleó una encuesta ad hoc tipo Likert (seis dimensiones) y se calcularon métricas de clasificación y perplejidad como indicadores descriptivos. Resultados: La herramienta fue bien recibida. Las medianas Likert oscilaron entre 4,75 y 4,90 sobre 5. Los residentes distinguieron con precisión qué informes habían sido asistidos (F1 = 0,92), lo que sugiere una huella formal reconocible. Se observó sesgo de autoatribución en las preferencias ciegas. La perplejidad difirió entre residentes y adjuntos (p = 0,03), apuntando a mayor regularidad en profesionales experimentados. Conclusiones: Los hallazgos respaldan la integración inicial del asistente en el circuito de guardias. El interés reside en su función de andamiaje para estandarizar la comunicación entre residentes y médicos peticionarios, no en automatizar el razonamiento diagnóstico. In the prospective phase, four residents generated 480 reports, alternating between manual and LLM-assisted writing (Custom GPT-4o). In parallel, 200 anonymized reports from attending physicians were analyzed to contextualize the metrics. An ad hoc Likert-type survey (six dimensions) was used, and classification and perplexity metrics were calculated as descriptive indicators. Results: The tool was well received. Median Likert scores ranged from 4.75 to 4.90 out of 5. Residents accurately distinguished which reports had been assisted (F1 = 0.92), suggesting a recognizable formal signature. Self-attribution bias was observed in blinded preferences. Perplexity differed between residents and attending physicians (p = 0.03), suggesting greater regularity among experienced professionals. Conclusions: The findings support the initial integration of the assistant into the on-call system. The value lies in its scaffolding function to standardize communication between residents and requesting physicians, not in automating diagnostic reasoning.
Objetivo: Evaluar si un sistema de informe estructurado asistido por Large Language Models puede integrarse de forma práctica en el trabajo de residentes de Radiología durante las guardias. Como objetivos secundarios: describir preferencias de formato mediante evaluación ciega, caracterizar diferencias lingüísticas entre informes manuales y asistidos, e identificar riesgos percibidos para un estudio confirmatorio. Métodos: Estudio piloto con dos componentes. En la fase prospectiva, cuatro residentes generaron 480 informes alternando redacción manual y asistida por LLM (Custom GPT-4o). En paralelo, se analizaron 200 informes anonimizados de adjuntos para contextualizar las métricas. Se empleó una encuesta ad hoc tipo Likert (seis dimensiones) y se calcularon métricas de clasificación y perplejidad como indicadores descriptivos. Resultados: La herramienta fue bien recibida. Las medianas Likert oscilaron entre 4,75 y 4,90 sobre 5. Los residentes distinguieron con precisión qué informes habían sido asistidos (F1 = 0,92), lo que sugiere una huella formal reconocible. Se observó sesgo de autoatribución en las preferencias ciegas. La perplejidad difirió entre residentes y adjuntos (p = 0,03), apuntando a mayor regularidad en profesionales experimentados. Conclusiones: Los hallazgos respaldan la integración inicial del asistente en el circuito de guardias. El interés reside en su función de andamiaje para estandarizar la comunicación entre residentes y médicos peticionarios, no en automatizar el razonamiento diagnóstico. In the prospective phase, four residents generated 480 reports, alternating between manual and LLM-assisted writing (Custom GPT-4o). In parallel, 200 anonymized reports from attending physicians were analyzed to contextualize the metrics. An ad hoc Likert-type survey (six dimensions) was used, and classification and perplexity metrics were calculated as descriptive indicators. Results: The tool was well received. Median Likert scores ranged from 4.75 to 4.90 out of 5. Residents accurately distinguished which reports had been assisted (F1 = 0.92), suggesting a recognizable formal signature. Self-attribution bias was observed in blinded preferences. Perplexity differed between residents and attending physicians (p = 0.03), suggesting greater regularity among experienced professionals. Conclusions: The findings support the initial integration of the assistant into the on-call system. The value lies in its scaffolding function to standardize communication between residents and requesting physicians, not in automating diagnostic reasoning.
publication.page.subject
Citation
García Hidalgo, C., Consentino Hernández, J. A., Cayuela Espí, J. V., Pagán Vicente, G., Plasencia Martínez, J. M., Blanco Barrio, A., … Moreno Pastor, A. (2026). Informe radiológico estructurado asistido por modelos de lenguaje en residentes de Radiología: piloto de implementación en Urgencias. Revista Española De Educación Médica, 7(1). https://doi.org/10.6018/edumed.695571
item.page.embargo
Ir a Estadísticas
Este ítem está sujeto a una licencia Creative Commons. http://creativecommons.org/licenses/by-nc-nd/4.0/