Establishing vocabulary tests as a benchmark for evaluating large language models

Indexado en

Licencia y uso

Citaciones

Cited 3 times in Scopus logo

Cited 3 times in Web of Science logo

Cited 2 times in Google Scholar logo

Altmetrics

Impacto en los Objetivos de Desarrollo Sostenible (ODS)

Investigadores/as Institucionales

Conde, JavierAutor o CoautorMerino-Gomez, ElenaAutor o CoautorReviriego, PedroAutor (correspondencia)

14 de marzo de 2025

Publicaciones

Artículo

Sí

Establishing vocabulary tests as a benchmark for evaluating large language models

Publicado en: PLOS ONE. 19 (12): e0308259- - 2024-12-12 19(12), DOI: 10.1371/journal.pone.0308259

Autores:

Martinez, Gonzalo; Conde, Javier; Merino-Gomez, Elena; Bermudez-Margaretto, Beatriz; Hernandez, Jose Alberto; Reviriego, Pedro; Brysbaert, Marc

[+]

Afiliaciones

Univ Carlos III Madrid, Dept Ingn Telemat, Leganes, Spain - Autor o Coautor

Univ Ghent, Dept Expt Psychol, Ghent, Belgium - Autor o Coautor

Univ Politecn Madrid, ETSI Telecomunicac, Madrid, Spain - Autor o Coautor

Univ Salamanca, Dept Psicol Basica Psicobiol & Metodol Las CC Com, Salamanca, Spain - Autor o Coautor

Univ Valladolid, Escuela Ingn Ind, Valladolid, Spain - Autor o Coautor

Resumen

Vocabulary tests, once a cornerstone of language modeling evaluation, have been largely overlooked in the current landscape of Large Language Models (LLMs) like Llama 2, Mistral, and GPT. While most LLM evaluation benchmarks focus on specific tasks or domain-specific knowledge, they often neglect the fundamental linguistic aspects of language understanding. In this paper, we advocate for the revival of vocabulary tests as a valuable tool for assessing LLM performance. We evaluate seven LLMs using two vocabulary test formats across two languages and uncover surprising gaps in their lexical knowledge. These findings shed light on the intricacies of LLM word representations, their learning mechanisms, and performance variations across models and languages. Moreover, the ability to automatically generate and perform vocabulary tests offers new opportunities to expand the approach and provide a more complete picture of LLMs' language skills.

[+]

Palabras clave

AcquisitionBenchmarkingHumansLanguageLanguage testsLextalModels, theoreticalQuality educationVocabularyWord recognition

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista PLOS ONE debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Multidisciplinary.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-24:

Google Scholar: 2
WoS: 3
Scopus: 3

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-24:

El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 13.
La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 11 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/85330/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

Visualizaciones: 215
Descargas: 36

Siguiendo con el impacto social del trabajo, es importante enfatizar el hecho de que, por su contenido, puede ser asignado a la línea de interés del ODS 4 - Quality Education, con una probabilidad del 88% según el algoritmo mBERT desarrollado por Aurora University.

[+]

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: Belgium.

el autor responsable de establecer las labores de correspondencia ha sido REVIRIEGO VASALLO, PEDRO.

[+]

Objetivos del proyecto

La aportación persigue los siguientes objetivos: establecer las pruebas de vocabulario como un referente para evaluar modelos de lenguaje grandes (LLMs); analizar el desempeño de siete LLMs utilizando dos formatos de pruebas de vocabulario en dos idiomas; identificar las deficiencias en el conocimiento léxico de los modelos evaluados; caracterizar las representaciones de palabras y los mecanismos de aprendizaje de los LLMs; evaluar las variaciones de rendimiento entre modelos e idiomas; y explorar la generación automática de pruebas de vocabulario para ampliar y mejorar la evaluación de las habilidades lingüísticas de los LLMs.

[+]

Resultados más relevantes

El estudio presenta una evaluación detallada de siete modelos de lenguaje a gran escala (LLMs) mediante pruebas de vocabulario en dos formatos y dos idiomas. En primer lugar, se identificaron brechas significativas en el conocimiento léxico de los modelos analizados. En segundo lugar, se evidenciaron variaciones notables en el rendimiento según el modelo y el idioma evaluado. En tercer lugar, se destacó la capacidad de los LLMs para generar y realizar automáticamente pruebas de vocabulario. Finalmente, estos resultados subrayan la importancia de las pruebas de vocabulario para comprender mejor las representaciones de palabras y los mecanismos de aprendizaje en los LLMs.

[+]

Reconocimientos ligados al ítem

This work was partially supported by the project CyberTutor: Asistente educativo personalizado basado en Grandes Modelos de Lenguaje (LLM), funded by "Primeros Proyectos" call from ETSIT, UPM; by the FUN4DATE (PID2022-136684OB-C22) and ENTRUDIT (TED2021-130118B-I00 projects funded by the Spanish Agencia Estatal de Investigacion (AEI); by the Chips Act Joint Undertaking project SMARTY (Grant no. 101140087) and by the OpenAI API Research Access Program. The funders had not played in study design, data collection and analysis, decision to publish, or preparation of the manuscript.

[+]

Indexado en

Licencia y uso

Citaciones

Altmetrics

Impacto en los Objetivos de Desarrollo Sostenible (ODS)

Investigadores/as Institucionales

Compartir

Establishing vocabulary tests as a benchmark for evaluating large language models

Afiliaciones

Resumen

Palabras clave

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Impacto y visibilidad social

Análisis de liderazgo de los autores institucionales

Objetivos del proyecto

Resultados más relevantes

Reconocimientos ligados al ítem