{rfName}
GP

Licencia y uso

Icono OpenAccess

Altmetrics

Análisis de autorías institucional

Garcia-Barragan AAutor o CoautorMenasalvas EAutor o CoautorRobles VAutor o Coautor

Compartir

29 de abril de 2024
Publicaciones
>
Artículo

GPT for medical entity recognition in Spanish

Publicado en:Multimedia Tools And Applications. - 2024-01-01 (), DOI: 10.1007/s11042-024-19209-5

Autores: García-Barragán Á; González Calatayud A; Solarte-Pabón O; Provencio M; Menasalvas E; Robles V

Afiliaciones

Hospital Universitario Puerta de Hierro Majadahonda - Autor o Coautor
Universidad del Valle, Cali - Autor o Coautor
Universidad Politécnica de Madrid - Autor o Coautor

Resumen

In recent years, there has been a remarkable surge in the development of Natural Language Processing (NLP) models, particularly in the realm of Named Entity Recognition (NER). Models such as BERT have demonstrated exceptional performance, leveraging annotated corpora for accurate entity identification. However, the question arises: Can newer Large Language Models (LLMs) like GPT be utilized without the need for extensive annotation, thereby enabling direct entity extraction? In this study, we explore this issue, comparing the efficacy of fine-tuning techniques with prompting methods to elucidate the potential of GPT in the identification of medical entities within Spanish electronic health records (EHR). This study utilized a dataset of Spanish EHRs related to breast cancer and implemented both a traditional NER method using BERT, and a contemporary approach that combines few shot learning and integration of external knowledge, driven by LLMs using GPT, to structure the data. The analysis involved a comprehensive pipeline that included these methods. Key performance metrics, such as precision, recall, and F-score, were used to evaluate the effectiveness of each method. This comparative approach aimed to highlight the strengths and limitations of each method in the context of structuring Spanish EHRs efficiently and accurately.The comparative analysis undertaken in this article demonstrates that both the traditional BERT-based NER method and the few-shot LLM-driven approach, augmented with external knowledge, provide comparable levels of precision in metrics such as precision, recall, and F score when applied to Spanish EHR. Contrary to expectations, the LLM-driven approach, which necessitates minimal data annotation, performs on par with BERT’s capability to discern complex medical terminologies and contextual nuances within the EHRs. The results of this study highlight a notable advance in the field of NER for Spanish EHRs, with the few shot approach driven by LLM, enhanced by external knowledge, slightly edging out the traditional BERT-based method in overall effectiveness. GPT’s superiority in F-score and its minimal reliance on extensive data annotation underscore its potential in medical data processing.

Palabras clave

BertBreast cancerEhrGptInformation extractionLlmNer

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Multimedia Tools And Applications debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Media Technology.

2025-07-12:

  • Google Scholar: 8
  • Scopus: 12

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-07-12:

  • El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 23.
  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 26 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

  • El Score total de Altmetric: 1.
  • El número de menciones en la red social X (antes Twitter): 1 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/88005/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 55
  • Descargas: 7

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: Colombia.

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (GARCIA BARRAGAN, ALVARO) y Último Autor (ROBLES FORCADA, VICTOR).