Machine vs Machine: Large Language Models (LLMs) in Applied Machine Learning High-Stakes Open-Book Exams

Quille, Keith; Alattyanyi, Csanad; Becker, Brett A.; Faherty, Róisín; Gordon, Damian; Harte, Miriam; Hensman, Svetlana; Hofmann, Markus; Jiménez García, Jorge; Kuznetsov, Anthony; Marais, Conrad; Nolan, Keith; Nicolai, Cianan; O’Leary, Ciarán; Zero, Andrzej

Publication:
Machine vs Machine: Large Language Models (LLMs) in Applied Machine Learning High-Stakes Open-Book Exams

dc.contributor.author	Quille, Keith
dc.contributor.author	Alattyanyi, Csanad
dc.contributor.author	Becker, Brett A.
dc.contributor.author	Faherty, Róisín
dc.contributor.author	Gordon, Damian
dc.contributor.author	Harte, Miriam
dc.contributor.author	Hensman, Svetlana
dc.contributor.author	Hofmann, Markus
dc.contributor.author	Jiménez García, Jorge
dc.contributor.author	Kuznetsov, Anthony
dc.contributor.author	Marais, Conrad
dc.contributor.author	Nolan, Keith
dc.contributor.author	Nicolai, Cianan
dc.contributor.author	O’Leary, Ciarán
dc.contributor.author	Zero, Andrzej
dc.date.accessioned	2024-09-12T13:23:43Z
dc.date.available	2024-09-12T13:23:43Z
dc.date.issued	2024-05-30
dc.description.abstract	There is a significant gap in Computing Education Research (CER) concerning the impact of Large Language Models (LLMs) in advanced stages of degree programmes. This study aims to address this gap by investigating the effectiveness of LLMs in answering exam questions within an applied machine learning final-year undergraduate course. The research examines the performance of LLMs in responding to a range of exam questions, including proctored closed-book and open-book questions spanning various levels of Bloom’s Taxonomy. Question formats encompassed open-ended, tabular data-based, and figure-based inquiries. To achieve this aim, the study has the following objectives: Comparative Analysis: To compare LLM-generated exam answers with actual student submissions to assess LLM performance. Detector Evaluation: To evaluate the efficacy of LLM detectors by directly inputting LLM-generated responses into these detectors. Additionally, assess detector performance on tampered LLM outputs designed to conceal their AI-generated origin. The research methodology used for this paper incorporates a staff-student partnership model involving eight academic staff and six students. Students play integral roles in shaping the project’s direction, particularly in areas unfamiliar to academic staff, such as specific tools to avoid LLM detection. This study contributes to the understanding of LLMs' role in advanced education settings, with implications for future curriculum design and assessment methodologies.	es
dc.description.abstract	Existe un importante vacío en la Investigación de Educación en Computación (CER) sobre el impacto de Modelos de Lenguaje de Gran Escala (LLM) en etapas avanzadas de estudios de grado. Este artículo trata de cubrir este vacío investigando la efectividad de las LLM respondiendo preguntas de examen de Aprendizaje Automático Aplicado en último curso de Grado. El estudio examina el desempeño de las LLM al responder a una variedad de preguntas de examen, que incluyen modelos de examen diseñados con y sin apuntes, a varios niveles de la Taxonomía de Bloom. Los formatos de pregunta incluyen de respuesta abierta, basadas en tablas, o en figuras. Para conseguir esta meta, este estudio tiene los siguientes objetivos: Análisis Comparativo: Comparar respuestas generadas por LLM y por estudiantes para juzgar el desempeño de las LLM. Evaluación de Detectores: Evaluar la eficacia de diferentes detectores de LLM. Además, juzgar la eficacia de los detectores sobre texto alterado por alumnos con el objetivo de engañar a los detectores. El método investigador de este artículo incorpora una relación entre seis alumnos y ocho profesores. Los estudiantes juegan un rol integral para determinar la dirección del proyecto, en especial en áreas poco conocidas para el profesorado, como el uso de herramientas de detección de LLM. Este estudio contribuye a entender el rol de las LLM en el ámbito de la educación universitaria, con implicaciones para el diseño de futuros curriculums y técnicas de evaluación.	es
dc.format	application/pdf	es
dc.format.extent	28	es
dc.identifier.citation	RED: revista de educación a distancia, N. 78, V. 24, 2024	es
dc.identifier.doi	http://dx.doi.org/10.6018/red.603001
dc.identifier.issn	1578-7680
dc.identifier.uri	http://hdl.handle.net/10201/143924
dc.language	eng	es
dc.publisher	Universidad de Murcia, Servicio de Publicaciones	es
dc.relation	Sin financiación externa a la Universidad	es
dc.rights	info:eu-repo/semantics/openAccess	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Applied Machine Learning	es
dc.subject	AI	es
dc.subject	LLMs	es
dc.subject	ChatGPT	es
dc.subject	Transformers	es
dc.subject	Detection	es
dc.subject	Performance	es
dc.subject	Aprendizaje Automático Aplicado	es
dc.subject	IA	es
dc.subject	LLM	es
dc.subject	ChatGPT	es
dc.subject	Transformers	es
dc.subject	Detección	es
dc.subject	Rendimiento	es
dc.subject.other	CDU::3 - Ciencias sociales::37 - Educación. Enseñanza. Formación. Tiempo libre	es
dc.title	Machine vs Machine: Large Language Models (LLMs) in Applied Machine Learning High-Stakes Open-Book Exams	es
dc.title.alternative	Máquina contra Máquina: Modelos de Lenguaje de Gran Escala (LLM) en Exámenes de Alto Riesgo de Aprendizaje Automático Aplicado con apuntes	es
dc.type	info:eu-repo/semantics/article	es
dspace.entity.type	Publication	es