{rfName}
A

Llicència i ús

Icono OpenAccess

Altmetrics

Anàlisi d'autories institucional

Luna-Jimenez, CAutor (correspondència)Kleinlein, RAutor o coautorMontero, Juan MAutor o coautorFernandez-Martinez, FernandoAutor o coautor

Compartir

11 defebrer de 2022
Publicacions
>
Article

A proposal for multimodal emotion recognition using aural transformers and action units on ravdess dataset

Publicat a:Applied Sciences-Basel. 12 (1): 327- - 2022-01-01 12(1), DOI: 10.3390/app12010327

Autors: Luna-Jiménez, C; Kleinlein, R; Griol, D; Callejas, Z; Montero, JM; Fernández-Martínez, F

Afiliacions

Univ Granada, Dept Software Engn, CITIC UGR, Periodista Daniel Saucedo Aranda S-N, Granada 18071, Spain - Autor o coautor
Univ Politecn Madrid, Grp Tecnol Habla & Aprendizaje Automatico THAU Gr, Informat Proc & Telecommun Ctr, ETSI Telecomunicac, Avda Complutense 30, Madrid 28040, Spain - Autor o coautor

Resum

Emotion recognition is attracting the attention of the research community due to its multiple applications in different fields, such as medicine or autonomous driving. In this paper, we proposed an automatic emotion recognizer system that consisted of a speech emotion recognizer (SER) and a facial emotion recognizer (FER). For the SER, we evaluated a pre-trained xlsr-Wav2Vec2.0 transformer using two transfer-learning techniques: embedding extraction and fine-tuning. The best accuracy results were achieved when we fine-tuned the whole model by appending a multilayer perceptron on top of it, confirming that the training was more robust when it did not start from scratch and the previous knowledge of the network was similar to the task to adapt. Regarding the facial emotion recognizer, we extracted the Action Units of the videos and compared the performance between employing static models against sequential models. Results showed that sequential models beat static models by a narrow difference. Error analysis reported that the visual systems could improve with a detector of high-emotional load frames, which opened a new line of research to discover new ways to learn from videos. Finally, combining these two modalities with a late fusion strategy, we achieved 86.70% accuracy on the RAVDESS dataset on a subject-wise 5-CV evaluation, classifying eight emotions. Results demonstrated that these modalities carried relevant information to detect users’ emotional state and their combination allowed to improve the final system performance.

Paraules clau

0 transformeraction unitscomputational paralinguisticsfacial emotion recognitionhuman-computer interactionravdessspeech emotion recognitiontransfer learningtransformerxlsr-wav2vec2Action unitsAudio-visual emotion recognitionComputational paralin-guisticsFacial emotion recognitionHuman–computer interactionModelRavdessSpeech emotion recognitionTransfer learningTransformerXlsr-wav2vec2.0 transformer

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Applied Sciences-Basel a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència WoS (JCR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2022, es trobava a la posició 42/90, aconseguint així situar-se com a revista Q2 (Segundo Cuartil), en la categoria Engineering, Multidisciplinary. Destacable, igualment, el fet que la revista està posicionada en el Cuartil Q2 para la agencia Scopus (SJR) en la categoría Engineering (Miscellaneous).

Des d'una perspectiva relativa, i tenint en compte l'indicador de impacte normalitzat calculat a partir de les Citacions Mundials proporcionades per WoS (ESI, Clarivate), proporciona un valor per a la normalització de citacions relatives a la taxa de citació esperada de: 2.23. Això indica que, comparat amb treballs en la mateixa disciplina i en el mateix any de publicació, el situa com un treball citat per sobre de la mitjana. (font consultada: ESI 14 Nov 2024)

Aquesta informació es reforça amb altres indicadors del mateix tipus, que encara que dinàmics en el temps i dependents del conjunt de citacions mitjanes mundials en el moment del seu càlcul, coincideixen a posicionar en algun moment el treball, entre el 50% més citats dins de la seva temàtica:

  • Mitjana Ponderada de l'Impacte Normalitzat de l'agència Scopus: 6.49 (font consultada: FECYT Febr 2024)
  • Field Citation Ratio (FCR) de la font Dimensions: 24.17 (font consultada: Dimensions Jul 2025)

Concretament, i atenent a les diferents agències d'indexació, aquest treball ha acumulat, fins a la data 2025-07-07, el següent nombre de cites:

  • WoS: 33
  • Scopus: 61

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-07-07:

  • L'ús, des de l'àmbit acadèmic evidenciat per l'indicador de l'agència Altmetric referit com a agregacions realitzades pel gestor bibliogràfic personal Mendeley, ens dona un total de: 81.
  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 82 (PlumX).

Amb una intenció més de divulgació i orientada a audiències més generals, podem observar altres puntuacions més globals com:

  • El Puntuació total de Altmetric: 2.85.
  • El nombre de mencions a la xarxa social X (abans Twitter): 2 (Altmetric).

És fonamental presentar evidències que recolzin l'alineació plena amb els principis i directrius institucionals sobre Ciència Oberta i la Conservació i Difusió del Patrimoni Intel·lectual. Un clar exemple d'això és:

  • El treball s'ha enviat a una revista la política editorial de la qual permet la publicació en obert Open Access.

Anàlisi del lideratge dels autors institucionals

Aquest treball s'ha realitzat amb col·laboració internacional, concretament amb investigadors de: Granada.

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (LUNA JIMENEZ, CRISTINA) i Últim Autor (FERNANDEZ MARTINEZ, FERNANDO).

l'autor responsable d'establir les tasques de correspondència ha estat LUNA JIMENEZ, CRISTINA.