{rfName}
Ti

APC

1 750,00 Dollars
doaj

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Mateos-Caballero, AlfonsoAutor o Coautor

Compartir

26 de enero de 2025
Publicaciones
>
Artículo

Time Series Classification of Raw Voice Waveforms for Parkinson's Disease Detection Using Generative Adversarial Network-Driven Data Augmentation

Publicado en: IEEE Open Journal of the Computer Society. 6 72-84 - 2025-01-01 6(), DOI: 10.1109/OJCS.2024.3504864

Autores:

Rey-Paredes, Marta; Perez, Carlos J; Mateos-Caballero, Alfonso
[+]

Afiliaciones

Univ Extremadura, Dept Matemat, Caceres 10003, Spain - Autor o Coautor
Univ Politecn Madrid, Dept Inteligencia Artificial, ETSIINF, Madrid 28660, Spain - Autor o Coautor

Resumen

Parkinson's disease (PD) is a neurodegenerative disorder that affects more than 10 million people worldwide. Despite its prevalence, the detection of PD remains a complicated task, as no gold standard test has yet been developed to provide an accurate diagnosis. In this context, many recent studies have focused on the automatic detection and progression tracking of PD from voice-related characteristics, being feature engineering the most common approach. This work intends to address an existing research gap by introducing a novel strategy that analyzes raw voice waveforms. Despite recent advancements, one of the significant hurdles is still the lack of extensive and diverse datasets. This article also implements a data augmentation solution. Big Vocoder Slicing Adversarial Network (BigVSAN) is used to generate synthetic voice data that mimics the characteristics of real patients and healthy subjects. For the PD detection task, deep learning models such as ResNet, LSTM-FCN, InceptionTime, and CDIL-CNN are used. The experiments were performed using the speech task of sustained vowel /a/ in the PC-GITA database, which contains the recordings of healthy and PD subjects. CDIL-CNN achieves the best results, improving the accuracy by 15.87% (8.96%) compared to the model that does not use augmented data (from the best method found in the literature that uses voice waveforms). The results of this study indicate that models trained with raw waveforms showcase modest but promising performance, underlying the potential of audio analysis to improve the early detection of PD, providing a non-invasive and potentially remotely applicable method.
[+]

Palabras clave

Cepstral analysisData augmentationData modelsDatabasesDeep learningDiseasesFeature extractionGenerative adversarial networksParkinson's diseaseRecordingSpectrogramTime series analysisVocal signal analysi

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista IEEE Open Journal of the Computer Society debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 14/258, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computer Science, Information Systems. Destacable, igualmente, el hecho de que la Revista está posicionada por encima del Percentil 90.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-27:

  • WoS: 5
  • Scopus: 7
[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-27:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 22 (PlumX).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/92509/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

  • Visualizaciones: 45
  • Descargas: 43
[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Rey-Paredes, Marta) y Último Autor (MATEOS CABALLERO, ALFONSO).

[+]

Objetivos del proyecto

Los objetivos perseguidos en esta aportación se centran en avanzar en la detección automática de la enfermedad de Parkinson a partir de señales de voz. Se plantean: analizar las ondas de voz en bruto para superar las limitaciones del enfoque tradicional basado en ingeniería de características; implementar una solución de aumento de datos mediante la red Big Vocoder Slicing Adversarial Network (BigVSAN) para generar datos sintéticos representativos; evaluar el rendimiento de modelos de aprendizaje profundo como ResNet, LSTM-FCN, InceptionTime y CDIL-CNN en la clasificación de voz; comparar la precisión obtenida con y sin aumento de datos, destacando una mejora del 15.87% en precisión con CDIL-CNN; y demostrar el potencial del análisis de audio para la detección temprana no invasiva y remota de Parkinson.
[+]

Resultados más relevantes

Los resultados más relevantes de este estudio se centran en la detección de la enfermedad de Parkinson mediante el análisis de formas de onda vocales crudas y la generación de datos sintéticos. En primer lugar, se implementó Big Vocoder Slicing Adversarial Network (BigVSAN) para la augmentación de datos, generando voces sintéticas que imitan características de pacientes reales y sujetos sanos. En segundo lugar, se evaluaron modelos de aprendizaje profundo como ResNet, LSTM-FCN, InceptionTime y CDIL-CNN para la clasificación de voz en la base de datos PC-GITA. Finalmente, el modelo CDIL-CNN obtuvo el mejor desempeño, mejorando la precisión en un 15.87% con datos aumentados frente a un 8.96% sin augmentación, superando métodos previos basados en formas de onda vocales.
[+]

Reconocimientos ligados al ítem

This work was supported in part by the R&D&I projects under Grant PID2021-122209OB-C31 and Grant PID2021-122209OB-C32 and in part by the MICIU/AEI/10.13039/501100011033/ FEDER, UE.
[+]