{rfName}
A

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Martín-Fernández I.Autor o CoautorEsteban-Romero S.Autor o CoautorGil-Martín M.Autor o CoautorFernández-Martínez F.Autor o Coautor

Compartir

10 de marzo de 2026
Publicaciones
>
Artículo
Hybrid Gold

A comprehensive study on contrastive pre-training and fine tuning of vision and text transformers for video memorability prediction

Publicado en: MULTIMEDIA TOOLS AND APPLICATIONS. 85 (1): - 2026-01-01 85(1), DOI: 10.1007/s11042-026-21260-3

Autores:

Martín-Fernández I; Esteban-Romero S; Gil-Martín M; Fernández-Martínez F
[+]

Afiliaciones

Information Processing and Telecommunications Center (IPTC) - Autor o Coautor

Resumen

Video memorability prediction has emerged as a key challenge for improving information retrieval, content design, and user engagement. Prior work has shown that semantic cues play a crucial role in determining memorability, with recent studies leveraging Contrastive Language-Image Pre-training (CLIP) encoders to incorporate semantic information. However, the specific improvements attributable to CLIP models remain unclear, as few studies systematically compare their performance against equivalent unimodal encoders or explore fine-tuning strategies. This work addresses that gap through a comprehensive, controlled evaluation of CLIP-based and unimodal encoders for video memorability prediction. We propose FCLIP, a domain-adapted extension of CLIP that undergoes additional contrastive pre-training on memorability-specific image-text pairs. Our experiments assess both feature extraction and supervised fine-tuning, ensuring fair comparisons across models with matched architecture and parameter count. Results show that FCLIP image encoders achieve a Spearman Rank Correlation Coefficient (SRCC) of 0.672 on the Memento10k dataset, significantly outperforming unimodal Vision Transformers. FCLIP text encoders similarly outperform unimodal baselines, reaching an SRCC of 0.632. These findings demonstrate that contrastive learning and domain adaptation substantially improve memorability prediction, highlighting the importance of semantic and multimodal pre-training in developing advanced content analysis systems.
[+]

Palabras clave

Contrastive language image pre-training (clip)Multimodal content analysisSemantic knowledge integrationVideo memorability prediction

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista MULTIMEDIA TOOLS AND APPLICATIONS debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia Scopus (SJR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2026, se encontraba en la posición , consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Media Technology.

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-26:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 2 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/94134/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 23
  • Descargas: 12
[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (MARTIN FERNANDEZ, IVAN) y Último Autor (FERNANDEZ MARTINEZ, FERNANDO).

[+]