{rfName}
Sp

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Martinez, GonzaloAutor (correspondencia)Huertas, Cris PozoAutor o CoautorGrandury, MariaAutor o CoautorReviriego, PedroAutor o Coautor

Compartir

14 de octubre de 2025
Publicaciones
>
Artículo

Spanish is not just one: A dataset of Spanish dialect recognition for LLMs

Publicado en: Data in Brief. 63 112088- - 2025-12-01 63(), DOI: 10.1016/j.dib.2025.112088

Autores:

Martinez, G; Mayor-Rocher, M; Huertas, CP; Melero, N; Grandury, M; Reviriego, P
[+]

Afiliaciones

NYU, C Barquillo 13,Madrid Campus, Madrid 28004, Spain - Autor o Coautor
SomosNLP, Madrid, Spain - Autor o Coautor
Univ Autonoma Madrid, Fac Filosofia & Letras, C-Francisco Tomas & Valiente 1, Madrid 28049, Spain - Autor o Coautor
Univ Politecn Madrid, Informat Proc & Telecommun Ctr IPTC, Avda Complutense 30, Madrid 28040, Spain - Autor o Coautor
Ver más

Resumen

This paper presents a dataset designed to assess the capability of Large Language Models (LLMs) in handling different Spanish dialects. While multilingualism is widely recognized as a crucial aspect of NLP, dialectal evaluation remains largely unexplored. Spanish, spoken by over 600 million people, exhibits significant lexical, morphological, and syntactic variation across regions. Recognizing these linguistic and cultural differences is essential for preserving smaller dialects, preventing their marginalization, and ensuring that Spanish is not reduced to a monolithic language. To address this gap, we introduce a dataset specifically designed to analyze whether LLMs can accurately identify different Spanish varieties while also measuring their potential preference for specific dialects. The dataset consists of 30 carefully crafted multiple-choice questions, requiring models to select the most appropriate option from different regional variations. Each question has been meticulously developed and reviewed by linguistic experts, undergoing multiple refinement cycles to ensure linguistic accuracy and effectiveness in detecting dialectal biases. This dataset represents an important step toward developing more inclusive and fair evaluation frameworks for Spanish Natural Language Processing (NLP). By identifying potential biases in LLMs and analyzing their ability to adapt to regional linguistic variations, this work contributes to the broader goal of equitable language representation in AI-driven text generation and comprehension tasks. (c) 2025 The Authors. Published by Elsevier Inc. This is an open access article under the CC BY license.
[+]

Palabras clave

AiArtificial intelligenceComputational linguisticsEvaluationLanguage modelLanguage processingLanguage variationLarge language modelLarge language modelsLearning algorithmsLearning systemsLinguisticsMachine learningMachine-learningMultilingualismNatural language processingNatural language processing systemsNatural languagesSpanish dialectsSyntactics

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Data in Brief, y aunque la revista se encuentra clasificada en el cuartil Q3 (Agencia WoS (JCR)), su enfoque regional y su especialización en Multidisciplinary Sciences, le otorgan un reconocimiento lo suficientemente significativo en un nicho concreto del conocimiento científico a nivel internacional.

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-25:

  • El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 8.
  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 8 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

  • El Score total de Altmetric: 1.
  • El número de menciones en la red social X (antes Twitter): 1 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/91162/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 100
  • Descargas: 96
[+]

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: United States of America.

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (MARTINEZ RUIZ DE ARCAUTE, GONZALO) y Último Autor (REVIRIEGO VASALLO, PEDRO).

el autor responsable de establecer las labores de correspondencia ha sido MARTINEZ RUIZ DE ARCAUTE, GONZALO.

[+]

Objetivos del proyecto

La aportación persigue los siguientes objetivos: analizar la capacidad de los modelos de lenguaje de gran tamaño (LLMs) para reconocer diferentes dialectos del español; evaluar la variación léxica, morfológica y sintáctica entre las variedades regionales del español; determinar la posible preferencia o sesgo de los LLMs hacia ciertos dialectos específicos; caracterizar la efectividad de un conjunto de 30 preguntas de opción múltiple diseñadas para detectar sesgos dialectales; y contribuir al desarrollo de marcos de evaluación más inclusivos y justos en el procesamiento del lenguaje natural en español, promoviendo una representación equitativa de las variedades lingüísticas en tareas de generación y comprensión de texto.
[+]

Resultados más relevantes

Los resultados más relevantes de esta aportación se centran en la evaluación de la capacidad de los modelos de lenguaje grandes (LLMs) para reconocer dialectos del español. En primer lugar, se desarrolló un conjunto de datos compuesto por 30 preguntas de opción múltiple, diseñadas para identificar variaciones regionales léxicas, morfológicas y sintácticas. En segundo lugar, cada pregunta fue elaborada y revisada por expertos lingüísticos, asegurando precisión y eficacia en la detección de sesgos dialectales. En tercer lugar, el análisis reveló diferencias significativas en la habilidad de los LLMs para identificar variedades específicas del español, evidenciando posibles preferencias dialectales. Finalmente, este trabajo establece un marco inclusivo para evaluar la representación equitativa del español en tareas de procesamiento del lenguaje natural.
[+]

Reconocimientos ligados al ítem

This work was supported by the FUN4DATE (PID2022-136684OB-C21/C22) and SMARTY (PCI2024-153434) projects funded by the Spanish Agencia Estatal de Investigacion (AEI) 10.13039/50110 0 011033 , by the European Union Chips Act Joint Undertaking project SMARTY (Grant no 101140087) and by the OpenAI Researcher Access Program. The evaluation was also done in part with equipment that was donated by NVIDIA to support our research.
[+]