{rfName}
Ha

Indexat a

Llicència i ús

Citacions

Altmetrics

Anàlisi d'autories institucional

Gil-Martín M.Autor o coautorMartín-Fernández I.Autor o coautorEsteban-Romero S.Autor o coautor

Compartir

12 d’abril de 2025
Publicacions
>
Conferència publicada
No

Hand Gesture Recognition Using MediaPipe Landmarks and Deep Learning Networks

Publicat a:International Conference On Agents And Artificial Intelligence. 3 24-30 - 2025-01-01 3(), DOI: 10.5220/0013053500003890

Autors: Gil-Martín M; Marini MR; Martín-Fernández I; Esteban-Romero S; Cinque L

Afiliacions

Information Processing and Telecommunications Center - Autor o coautor
Sapienza Università di Roma - Autor o coautor

Resum

Advanced Human Computer Interaction techniques are commonly used in multiple application areas, from entertainment to rehabilitation. In this context, this paper proposes a framework to recognize hand gestures using a limited number of landmarks from the video images. This hand gesture recognition system comprises an image processing module that extracts and processes the coordinates of 21 hand points called landmarks, and a deep neural network module that models and classifies the hand gestures. These landmarks are extracted automatically through MediaPipe software. The experiments were carried out over the IPN Hand dataset in an independent-user scenario using a Subject-Wise Cross Validation. They cover the use of different landmark-based formats, normalizations, lengths of the gesture representations, and number of landmarks used as inputs. The system obtains significantly better accuracy when using the raw coordinates of the 21 landmarks through 125 timesteps and a light Recurrent Neural Network architecture (80.56 ± 1.19 %) or the hand anthropometric measures (82.20 ± 1.15 %) compared to using the speed of the hand landmarks through the gesture (72.93 ± 1.34 %). The proposed framework studied the effect of different landmark-based normalizations over the raw coordinates, obtaining an accuracy of 83.67 ± 1.12 % when using as reference the wrist landmark from each frame, and an accuracy of 84.66 ± 1.09 % when using as reference the wrist landmark from the first video frame of the current gesture. In addition, the proposed solution provided high recognition performance even when only using the coordinates from 6 (82.15 ± 1.16 %) or 4 (81.46 ± 1.17 %) specific hand landmarks using as reference the wrist landmark from the first video frame of the current gesture.

Paraules clau

Deep learningHand gesture recognitionHuman-computer interactionMediapipe landmarks

Indicis de qualitat

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-07-12:

  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 12 (PlumX).

Anàlisi del lideratge dels autors institucionals

Aquest treball s'ha realitzat amb col·laboració internacional, concretament amb investigadors de: Italy.

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (GIL MARTIN, MANUEL) .