{rfName}
Sy

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Esteban-Romero, SergioAutor (correspondencia)Martín-Fernández, IvánAutor o CoautorGil-Martin, ManuelAutor o CoautorFernandez-Martinez, FernandoAutor o Coautor

Compartir

4 de septiembre de 2025
Publicaciones
>
Artículo

Synthesizing Olfactory Understanding: Multimodal Language Models for Image-Text Smell Matching

Publicado en: Symmetry-Basel. 17 (8): 1349- - 2025-08-18 17(8), DOI: 10.3390/sym17081349

Autores:

Esteban-Romero, Sergio; Martin-Fernandez, Ivan; Gil-Martin, Manuel; Fernandez-Martinez, Fernando
[+]

Afiliaciones

Univ Politecn Madrid UPM, Grp Tecnol Habla & Aprendizaje Automat THAU Grp, Informat Proc & Telecommun Ctr, ETSI Telecomunicac, Madrid 28040, Spain - Autor o Coautor

Resumen

Olfactory information, crucial for human perception, is often underrepresented compared to visual and textual data. This work explores methods for understanding smell descriptions within a multimodal context, where scent information is conveyed indirectly through text and images. We address the challenges of the Multimodal Understanding of Smells in Texts and Images (MUSTI) task by proposing novel approaches that leverage language-specific models and state-of-the-art multimodal large language models (MM-LLMs). Our core contribution is a multimodal framework using language-specific encoders for text and image data. This allows for a joint embedding space that explores the semantic symmetry between smells, texts, and images to identify olfactory-related connections shared across the modalities. While ensemble learning with language-specific models achieved good performance, MM-LLMs demonstrated exceptional potential. Fine-tuning a quantized version of the Qwen-VL-Chat model achieved a state-of-the-art macro F1-score of 0.7618 on the MUSTI task. This highlights the effectiveness of MM-LLMs in capturing task requirements and adapting to specific formats.
[+]

Palabras clave

Contrastive language-image pretraining (clip)Contrastive language–image pretraining (clip)Multimodal large language models (mm-llmsMultimodal large language models (mm-llms)Multimodal perceptionOlfactory understanding

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Symmetry-Basel debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 54/136, consiguiendo con ello situarse como revista Q2 (Segundo Cuartil), en la categoría Multidisciplinary Sciences. Destacable, igualmente, el hecho de que la Revista está posicionada en el Cuartil Q2 para la agencia Scopus (SJR) en la categoría Computer Science (Miscellaneous).

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-27:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 2 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

    Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

    • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
    • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/90955/

    Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

    • Visualizaciones: 93
    • Descargas: 97
    [+]

    Análisis de liderazgo de los autores institucionales

    Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (ESTEBAN ROMERO, SERGIO) y Último Autor (FERNANDEZ MARTINEZ, FERNANDO).

    el autor responsable de establecer las labores de correspondencia ha sido ESTEBAN ROMERO, SERGIO.

    [+]

    Reconocimientos ligados al ítem

    Sergio Esteban-Romero's research was supported by the Spanish Ministry of Education (FPI grant PRE2022-105516). The research of Ivan Martin-Fernandez was supported by the Universidad Politecnica de Madrid (Programa Propio I+D+i). This work was funded by Project ASTOUND (101071191-HORIZON-EIC-2021-PATHFINDERCHALLENGES-01) of the European Commission and by the Spanish Ministry of Science and Innovation through the projects GOMINOLA (PID2020-118112RB-C22), TRUSTBOOST (PID2023-150584OB-C21), and BeWord (PID2021-126061OB-C43), funded by MCIN/AEI/ 10.13039/501100011033 and by the European Union "NextGenerationEU/PRTR".
    [+]