Improving Synthetic Data Generation Through Federated Learning in Scarce and Heterogeneous Data Scenarios

13 de marzo de 2025

Publicaciones

>

Artículo

Sí

Improving Synthetic Data Generation Through Federated Learning in Scarce and Heterogeneous Data Scenarios

Publicado en: Big Data and Cognitive Computing. 9 (2): 18- - 2025-02-01 9(2), DOI: 10.3390/bdcc9020018

Autores:

Apellaniz, Patricia A; Parras, Juan; Zazo, Santiago

[+]

Afiliaciones

Univ Politecn Madrid, Informat Proc & Telecommun Ctr, ETS Ingn Telecomunicac, Madrid 28040, Spain - Autor o Coautor

Resumen

Synthetic Data Generation (SDG) is a promising solution for healthcare, offering the potential to generate synthetic patient data closely resembling real-world data while preserving privacy. However, data scarcity and heterogeneity, particularly in under-resourced regions, challenge the effective implementation of SDG. This paper addresses these challenges using Federated Learning (FL) for SDG, focusing on sharing synthetic patients across nodes. By leveraging collective knowledge and diverse data distributions, we hypothesize that sharing synthetic data can significantly enhance the quality and representativeness of generated data, particularly for institutions with limited or biased datasets. This approach aligns with meta-learning concepts, like Domain Randomized Search. We compare two FL techniques, FedAvg and Synthetic Data Sharing (SDS), the latter being our proposed contribution. Both approaches are evaluated using variational autoencoders with Bayesian Gaussian mixture models across diverse medical datasets. Our results demonstrate that while both methods improve SDG, SDS consistently outperforms FedAvg, producing higher-quality, more representative synthetic data. Non-IID scenarios reveal that while FedAvg achieves improvements of 13-27% in reducing divergence compared to isolated training, SDS achieves reductions exceeding 50% in the worst-performing nodes. These findings underscore synthetic data sharing potential to reduce disparities between data-rich and data-poor institutions, fostering more equitable healthcare research and innovation.

[+]

Palabras clave

Data heterogeneitData heterogeneityData scarcityFederated learningMedical dataSynthetic data generation

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Big Data and Cognitive Computing debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 26/147, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computer Science, Theory & Methods.

Independientemente del impacto esperado determinado por el canal de difusión, es importante destacar el impacto real observado de la propia aportación.

Según las diferentes agencias de indexación, el número de citas acumuladas por esta publicación hasta la fecha 2026-04-24:

WoS: 3
Scopus: 8

[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2026-04-24:

El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 28.
La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 28 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

El Score total de Altmetric: 4.
El número de menciones en la red social X (antes Twitter): 1 (Altmetric).
El número de menciones en Wikipedia: 1 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://oa.upm.es/91970/

Como resultado de la publicación del trabajo en el repositorio institucional, se han obtenido datos estadísticos de uso que reflejan su impacto. En términos de difusión, podemos afirmar que, hasta la fecha

Visualizaciones: 51
Descargas: 40

[+]

Análisis de liderazgo de los autores institucionales

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (ALONSO DE APELLANIZ, PATRICIA) y Último Autor (ZAZO BELLO, SANTIAGO).

el autor responsable de establecer las labores de correspondencia ha sido ALONSO DE APELLANIZ, PATRICIA.

[+]

Reconocimientos ligados al ítem

This work was supported by the GenoMed4All and SYNTHEMA projects from the European Union's Horizon 2020 Research and Innovation Program under Grant 101017549 and Grant 101095530. However, the views and opinions expressed are those of the authors only and do not necessarily reflect those of the European Union or the European Commission. Neither the European Union nor the granting authority can be held responsible.

[+]

Indexado en

Licencia y uso

Citaciones

Altmetrics

Investigadores/as Institucionales

Compartir

Improving Synthetic Data Generation Through Federated Learning in Scarce and Heterogeneous Data Scenarios

Afiliaciones

Resumen

Palabras clave

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

Análisis de liderazgo de los autores institucionales

Reconocimientos ligados al ítem