Publication:
UMUCorpusClassifier: compilation and evaluation of linguistic corpus for Natural Language Processing tasks

dc.contributor.authorAlmela, Ángela
dc.contributor.authorGarcía Díaz, José Antonio
dc.contributor.authorAlcaraz Marmol, Gema
dc.contributor.authorValencia García, Rafael
dc.contributor.departmentFilología Inglesa
dc.date.accessioned2026-02-19T08:53:20Z
dc.date.available2026-02-19T08:53:20Z
dc.date.copyright© 2020 Sociedad Española para el Procesamiento del Lenguaje Natural
dc.date.issued2020
dc.description.abstractThe development of an annotated corpus is a very time-consuming task. Although some researchers have proposed the automatic annotation of a corpus based on ad-hoc heuristics, valid hypotheses cannot always be made. Even when the annotation process is performed by human annotators, the quality of the corpus is heavily in uenced by disagreements between annotators or with themselves. Therefore, the lack of supervision of the annotation process can lead to poor quality corpus. In this work, we propose a demonstration of UMUCorpusClassi er, a NLP tool for aid researches for compiling corpus as well as coordinating and supervising the annotation process. This tool eases the daily supervision process and permits to detect deviations and inconsistencies during early stages of the annotation process.
dc.description.abstractLa construcción de un corpus anotado es una tarea que consume mucho tiempo. Aunque algunos investigadores han propuesto la anotación automática basada en heurísticas, éstas no siempre son posibles. Además, incluso cuando la anotación es realizada por personas puede haber discrepancias entre los mismos anotadores o de un anotador consigo mismo que influyen en la calidad del corpus. Por tanto, la falta de supervisión sobre el proceso de anotación puede llevar a corpus con baja calidad. En este trabajo, proponemos una demostración de UMUCorpusClassifi er, una herramienta PLN para ayudar a los investigadores a compilar corpus y también a coordinar y supervisar el proceso de anotación. Esta herramienta facilita la monitorización diaria y permite detectar inconsistencias durante etapas tempranas del proceso de anotación.
dc.formatapplication/pdf
dc.format.extent4
dc.identifier.doi10.26342/2020-65-22
dc.identifier.eissn1989-7553
dc.identifier.issn1135-5948
dc.identifier.urihttp://hdl.handle.net/10201/207981
dc.languageeng
dc.publisherSociedad Española de Procesamiento del Lenguaje Natural
dc.relationThis demonstration has been supported by the Spanish National Research Agency (AEI) and the European Regional Development Fund (FEDER/ERDF) through projects KBS4FIA (TIN2016-76323-R) and LaTe4PSP (PID2019-107652RB-I00). In addition, Jose Antonio Garcia-Diaz has been supported by Banco Santander and University of Murcia through the Doctorado industrial programme.
dc.relation.ispartofProcesamiento del Lenguaje Natural
dc.relation.publisherversionhttp://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6292/3728
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectClasificación de documentos
dc.subjectCompilación de corpus
dc.subjectCorpus compilation
dc.subjectDocument classi cation
dc.subject.odsObjetivo 4: Educación
dc.titleUMUCorpusClassifier: compilation and evaluation of linguistic corpus for Natural Language Processing tasks
dc.title.alternativeUMUCorpusClassi er: recolección y evaluación de corpus lingüísticos para tareas de Procesamiento del Lenguaje Natural
dc.typeinfo:eu-repo/semantics/article
dc.type.versioninfo:eu-repo/semantics/publishedVersion
dspace.entity.typePublicationes
relation.isAuthorOfPublicationa3124e18-690d-4cfc-80a4-98e6b667d928
relation.isAuthorOfPublication14ca7de1-eef1-42b4-9649-b765516ea4f3
relation.isAuthorOfPublicationab591422-699c-4535-8e8f-fd09f0e90ec2
relation.isAuthorOfPublication.latestForDiscoverya3124e18-690d-4cfc-80a4-98e6b667d928
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
SEPLN2020.pdf
Size:
1.01 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.37 KB
Format:
Item-specific license agreed upon to submission
Description:
Collections