{rfName}
Wi

Altmetrics

Investigadores/as Institucionales

Calleja PAutor o CoautorSanchez AAutor o CoautorCorcho OAutor o Coautor

Compartir

1 de mayo de 2023
Publicaciones
>
Artículo
No

Widaug. Data augmentation for named entity recognition using Wikidata

Publicado en: Procesamiento de Lenguaje Natural. (70): 145-155 - 2023-03-01 (70), DOI: 10.26342/2023-70-12

Autores:

Calleja, P; Sánchez, A; Corcho, O
[+]

Afiliaciones

Univ Politecn Madrid, Ontol Engn Grp, Madrid, Spain - Autor o Coautor
Universidad Politécnica de Madrid - Autor o Coautor

Resumen

The current state of the art of Natural Language Processing models are based on the use of a big amount of data to be trained. The more, the better. However, this is quite a limitation in the creation of datasets for specific natural language processing tasks such as Named Entity Recognition, which involves one or more annotators to read, understand and annotate those required named entities along a corpus. Currently, there are many good general domain corpora for the English language. However, particular domains or scenarios and other non-English languages are still not so represented in the research community. Thus, data augmentation techniques are explored to create synthetic data similar to the originals to enrich the training process of the models. On the other hand, knowledge graphs contain a lot of valuable information that is not being used to help in the data augmentation process. This work proposes a data augmentation method based on the Wikidata knowledge graph which is tested in a Spanish corpus for a Named Entity Recognition challenge.
[+]

Palabras clave

data augmentationwikidataData augmentationNamed entity recognitionWikidata

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Procesamiento de Lenguaje Natural debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2023, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Linguistics and Language.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-27:

  • WoS: 1
  • Scopus: 1
[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-27:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 3 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/86404/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 121
  • Descargas: 108
[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Calleja Ibañez, Pablo) y Último Autor (CORCHO GARCIA, OSCAR).

[+]