{rfName}
Pa

Licencia y uso

Icono OpenAccess

Citaciones

1

Altmetrics

Investigadores/as Institucionales

Martin Fernandez, IvanAutor o CoautorEsteban-Romero, SergioAutor o CoautorFernández Martínez, FernandoAutor o CoautorGil-Martin, ManuelAutor o Coautor

Compartir

12 de abril de 2025
Publicaciones
>
Artículo

Parameter-Efficient Adaptation of Large Vision-Language Models for Video Memorability Prediction

Publicado en: SENSORS. 25 (6): 1661- - 2025-03-07 25(6), DOI: 10.3390/s25061661

Autores:

Martin-Fernandez, Ivan; Esteban-Romero, Sergio; Fernandez-Martinez, Fernando; Gil-Martin, Manuel
[+]

Afiliaciones

Univ Politecn Madrid UPM, Informat Proc & Telecommun Ctr, Grp Tecnol Habla & Aprendizaje Automat THAU Grp, Madrid 28040, Spain - Autor o Coautor

Resumen

The accurate modelling of video memorability, or the intrinsic properties that render a piece of audiovisual content more likely to be remembered, will facilitate the development of automatic systems that are more efficient in retrieving, classifying and generating impactful media. Recent studies have indicated a strong correlation between the visual semantics of video and its memorability. This underscores the importance of developing advanced visual comprehension abilities to enhance model performance. It has been demonstrated that Large Vision-Language Models (LVLMs) demonstrate exceptional proficiency in generalist, high-level semantic comprehension of images and video, due to their extensive multimodal pre-training on a vast scale. This work makes use of the vast generalist knowledge of LVLMs and explores efficient adaptation techniques with a view to utilising them as memorability predictors. In particular, the Quantized Low-Rank Adaptation (QLoRA) technique is employed to fine-tune the Qwen-VL model with memorability-related data extracted from the Memento10k dataset. In light of existing research, we propose a particular methodology that transforms Qwen-VL from a language model to a memorability score regressor. Furthermore, we consider the influence of selecting appropriate LoRA hyperparameters, a design aspect that has been insufficiently studied. We validate the LoRA rank and alpha hyperparameters using 5-Fold Cross-Validation and evaluate our best configuration on the official testing portion of the Memento10k dataset, obtaining a state-of-the-art Spearman Rank Correlation Coefficient (SRCC) of 0.744. Consequently, this work represents a significant advancement in modelling video memorability through high-level semantic understanding.
[+]

Palabras clave

Efficient adaptatioEfficient adaptationLarge visual language modelsMultimedia perceptionVideo memorability

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista SENSORS debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Instrumentation.

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-26:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 6 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

    Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

    • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
    • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/88245/

    Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

    • Visualizaciones: 158
    • Descargas: 69
    [+]

    Análisis de liderazgo de los autores institucionales

    Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Martín-Fernández, Iván) y Último Autor (GIL MARTIN, MANUEL).

    el autor responsable de establecer las labores de correspondencia ha sido Martín-Fernández, Iván.

    [+]

    Reconocimientos ligados al ítem

    The research of Ivan Martin-Fernandez was supported by the Universidad Politecnica de Madrid (Programa Propio I+D+i). Sergio Esteban-Romero's research was supported by the Spanish Ministry of Education (FPI grant PRE2022-105516). This work was funded by Project ASTOUND (101071191-HORIZON-EIC-2021-PATHFINDERCHALLENGES-01) of the European Commission and by the Spanish Ministry of Science and Innovation through the projects GOMINOLA (PID2020-118112RB-C22), TRUSTBOOST (PID2023-150584OB-C21) and BeWord (PID2021-126061OB-C43), funded by MCIN/AEI/10.13039/501100011033 and by the European Union "NextGenerationEU/PRTR".
    [+]