{rfName}
Ex

APC

2 438,00 Euros

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Huertas-García áAutor (correspondencia)Martín García, AlejandroAutor o CoautorHuertas-Tato JAutor o CoautorCamacho DAutor (correspondencia)

Compartir

7 de noviembre de 2022
Publicaciones
>
Artículo

Exploring Dimensionality Reduction Techniques in Multilingual Transformers

Publicado en: Cognitive Computation. 15 (2): 590-612 - 2023-03-01 15(2), DOI: 10.1007/s12559-022-10066-8

Autores:

Huertas-García, A; Martín, A; Huertas-Tato, J; Camacho, D
[+]

Afiliaciones

Univ Politecn Madrid, Dept Sistemas Informat, Madrid, Spain - Autor o Coautor
Universidad Politécnica de Madrid - Autor o Coautor

Resumen

In scientific literature and industry, semantic and context-aware Natural Language Processing-based solutions have been gaining importance in recent years. The possibilities and performance shown by these models when dealing with complex Human Language Understanding tasks are unquestionable, from conversational agents to the fight against disinformation in social networks. In addition, considerable attention is also being paid to developing multilingual models to tackle the language bottleneck. An increase in size has accompanied the growing need to provide more complex models implementing all these features without being conservative in the number of dimensions required. This paper aims to provide a comprehensive account of the impact of a wide variety of dimensional reduction techniques on the performance of different state-of-the-art multilingual siamese transformers, including unsupervised dimensional reduction techniques such as linear and nonlinear feature extraction, feature selection, and manifold techniques. In order to evaluate the effects of these techniques, we considered the multilingual extended version of Semantic Textual Similarity Benchmark (mSTSb) and two different baseline approaches, one using the embeddings from the pre-trained version of five models and another using their fine-tuned STS version. The results evidence that it is possible to achieve an average reduction of 91.58 % ± 2.59 % in the number of dimensions of embeddings from pre-trained models requiring a fitting time 96.68 % ± 0.68 % faster than the fine-tuning process. Besides, we achieve 54.65 % ± 32.20 % dimensionality reduction in embeddings from fine-tuned models. The results of this study will significantly contribute to the understanding of how different tuning approaches affect performance on semantic-aware tasks and how dimensional reduction techniques deal with the high-dimensional embeddings computed for the STS task and their potential for other highly demanding NLP tasks.
[+]

Palabras clave

deeplanguage modelsmultilingual transformersnatural language processingsemantic textual similarityComponent analysisDimensionality reductionLanguage modelsMultilingual transformersNatural language processingSemantic textual similarity

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Cognitive Computation debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2023, se encontraba en la posición 76/310, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Neurosciences.

Desde una perspectiva relativa, y atendiendo al indicador del impacto normalizado calculado a partir de las Citas Mundiales proporcionadas por WoS (ESI, Clarivate), arroja un valor para la normalización de citas relativas a la tasa de citación esperada de: 1.47. Esto indica que, de manera comparada con trabajos en la misma disciplina y en el mismo año de publicación, lo ubica como trabajo citado por encima de la media. (fuente consultada: ESI 13 Nov 2025)

De manera concreta y atendiendo a las diferentes agencias de indexación, el trabajo ha acumulado, hasta la fecha 2026-04-26, el siguiente número de citas:

  • WoS: 7
  • Scopus: 8
  • Google Scholar: 15
[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-26:

  • El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 45.
  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 45 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

  • El Score total de Altmetric: 2.
  • El número de menciones en la red social X (antes Twitter): 2 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/88877/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 160
  • Descargas: 134
[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (HUERTAS GARCÍA, ÁLVARO) y Último Autor (CAMACHO FERNANDEZ, DAVID).

los autores responsables de establecer las labores de correspondencia han sido HUERTAS GARCÍA, ÁLVARO y CAMACHO FERNANDEZ, DAVID.

[+]