{rfName}
GP

Llicència i ús

Icono OpenAccess

Altmetrics

Anàlisi d'autories institucional

Garcia-Barragan AAutor o coautorMenasalvas EAutor o coautorRobles VAutor o coautor

Compartir

29 d’abril de 2024
Publicacions
>
Article

GPT for medical entity recognition in Spanish

Publicat a:Multimedia Tools And Applications. - 2024-01-01 (), DOI: 10.1007/s11042-024-19209-5

Autors: García-Barragán Á; González Calatayud A; Solarte-Pabón O; Provencio M; Menasalvas E; Robles V

Afiliacions

Hospital Universitario Puerta de Hierro Majadahonda - Autor o coautor
Universidad del Valle, Cali - Autor o coautor
Universidad Politécnica de Madrid - Autor o coautor

Resum

In recent years, there has been a remarkable surge in the development of Natural Language Processing (NLP) models, particularly in the realm of Named Entity Recognition (NER). Models such as BERT have demonstrated exceptional performance, leveraging annotated corpora for accurate entity identification. However, the question arises: Can newer Large Language Models (LLMs) like GPT be utilized without the need for extensive annotation, thereby enabling direct entity extraction? In this study, we explore this issue, comparing the efficacy of fine-tuning techniques with prompting methods to elucidate the potential of GPT in the identification of medical entities within Spanish electronic health records (EHR). This study utilized a dataset of Spanish EHRs related to breast cancer and implemented both a traditional NER method using BERT, and a contemporary approach that combines few shot learning and integration of external knowledge, driven by LLMs using GPT, to structure the data. The analysis involved a comprehensive pipeline that included these methods. Key performance metrics, such as precision, recall, and F-score, were used to evaluate the effectiveness of each method. This comparative approach aimed to highlight the strengths and limitations of each method in the context of structuring Spanish EHRs efficiently and accurately.The comparative analysis undertaken in this article demonstrates that both the traditional BERT-based NER method and the few-shot LLM-driven approach, augmented with external knowledge, provide comparable levels of precision in metrics such as precision, recall, and F score when applied to Spanish EHR. Contrary to expectations, the LLM-driven approach, which necessitates minimal data annotation, performs on par with BERT’s capability to discern complex medical terminologies and contextual nuances within the EHRs. The results of this study highlight a notable advance in the field of NER for Spanish EHRs, with the few shot approach driven by LLM, enhanced by external knowledge, slightly edging out the traditional BERT-based method in overall effectiveness. GPT’s superiority in F-score and its minimal reliance on extensive data annotation underscore its potential in medical data processing.

Paraules clau

BertBreast cancerEhrGptInformation extractionLlmNer

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Multimedia Tools And Applications a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència Scopus (SJR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2024 encara no hi ha indicis calculats, però el 2023, es trobava a la posició , aconseguint així situar-se com a revista Q1 (Primer Cuartil), en la categoria Media Technology.

Independentment de l'impacte esperat determinat pel canal de difusió, és important destacar l'impacte real observat de la pròpia aportació.

Segons les diferents agències d'indexació, el nombre de citacions acumulades per aquesta publicació fins a la data 2025-07-12:

  • Google Scholar: 8
  • Scopus: 12

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-07-12:

  • L'ús, des de l'àmbit acadèmic evidenciat per l'indicador de l'agència Altmetric referit com a agregacions realitzades pel gestor bibliogràfic personal Mendeley, ens dona un total de: 23.
  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 26 (PlumX).

Amb una intenció més de divulgació i orientada a audiències més generals, podem observar altres puntuacions més globals com:

  • El Puntuació total de Altmetric: 1.
  • El nombre de mencions a la xarxa social X (abans Twitter): 1 (Altmetric).

És fonamental presentar evidències que recolzin l'alineació plena amb els principis i directrius institucionals sobre Ciència Oberta i la Conservació i Difusió del Patrimoni Intel·lectual. Un clar exemple d'això és:

  • El treball s'ha enviat a una revista la política editorial de la qual permet la publicació en obert Open Access.
  • Assignació d'un Handle/URN com a identificador dins del Dipòsit en el Repositori Institucional: https://oa.upm.es/88005/

Com a resultat de la publicació del treball en el repositori institucional, s'han obtingut dades estadístiques d'ús que reflecteixen el seu impacte. En termes de difusió, podem afirmar que, fins a la data

  • Visualitzacions: 55
  • Descàrregues: 7

Anàlisi del lideratge dels autors institucionals

Aquest treball s'ha realitzat amb col·laboració internacional, concretament amb investigadors de: Colombia.

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (GARCIA BARRAGAN, ALVARO) i Últim Autor (ROBLES FORCADA, VICTOR).