{rfName}
Cr

Licencia y uso

Icono OpenAccess

Altmetrics

Investigadores/as Institucionales

Decelle, AurelienAutor o Coautor

Compartir

21 de enero de 2025
Publicaciones
>
Artículo

Creating artificial human genomes using generative neural networks

Publicado en: Plos Genetics. 17 (2): e1009303- - 2021-02-01 17(2), DOI: 10.1371/journal.pgen.1009303

Autores:

Yelmen, Burak; Decelle, Aurelien; Ongaro, Linda; Marnetto, Davide; Tallec, Corentin; Montinaro, Francesco; Furtlehner, Cyril; Pagani, Luca; Jay, Flora
[+]

Afiliaciones

Univ Bari, Dept Biol Genet, Bari, Italy - Autor o Coautor
Univ Complutense, Dept Fis Teor 1, Madrid, Spain - Autor o Coautor
Univ Padua, Dept Biol, APE Lab, Padua, Italy - Autor o Coautor
Univ Paris Saclay, Univ Paris Sud, Lab Rech Informat, CNRS,UMR 8623, Paris, France - Autor o Coautor
Univ Tartu, Inst Genom, Tartu, Estonia - Autor o Coautor
Univ Tartu, Inst Mol & Cell Biol, Tartu, Estonia - Autor o Coautor
Ver más

Resumen

Generative models have shown breakthroughs in a wide spectrum of domains due to recent advancements in machine learning algorithms and increased computational power. Despite these impressive achievements, the ability of generative models to create realistic synthetic data is still under-exploited in genetics and absent from population genetics. Yet a known limitation in the field is the reduced access to many genetic databases due to concerns about violations of individual privacy, although they would provide a rich resource for data mining and integration towards advancing genetic studies. In this study, we demonstrated that deep generative adversarial networks (GANs) and restricted Boltzmann machines (RBMs) can be trained to learn the complex distributions of real genomic datasets and generate novel high-quality artificial genomes (AGs) with none to little privacy loss. We show that our generated AGs replicate characteristics of the source dataset such as allele frequencies, linkage disequilibrium, pairwise haplotype distances and population structure. Moreover, they can also inherit complex features such as signals of selection. To illustrate the promising outcomes of our method, we showed that imputation quality for low frequency alleles can be improved by data augmentation to reference panels with AGs and that the RBM latent space provides a relevant encoding of the data, hence allowing further exploration of the reference dataset and features for solving supervised tasks. Generative models and AGs have the potential to become valuable assets in genetic studies by providing a rich yet compact representation of existing genomes and high-quality, easy-access and anonymous alternatives for private databases. Author summary Generative neural networks have been effectively used in many different domains in the last decade, including machine dreamt photo-realistic imagery. In our work, we apply a similar concept to genetic data to automatically learn its structure and, for the first time, produce high quality realistic genomes. These novel genomes are distinct from the original ones used for training the generative networks. We show that artificial genomes, as we name them, retain many complex characteristics of real genomes and the heterogeneous relationships between individuals. They can be used in intricate analyses such as imputation of missing data as we demonstrated. We believe they have a high potential to become alternatives for many genome databases which are not publicly available or require long application procedures or collaborations and remove an important accessibility barrier in genomic research in particular for underrepresented populations.
[+]

Palabras clave

AlgorithmAlgorithmsAlleleAllelesArticleChromosome 15Chromosomes, human, pair 15Computer simulationDatabases, factualDatabases, geneticDeep learningDiversityFactual databaseGene frequencyGene linkage disequilibriumGenetic databaseGeneticsGenome, humanHaplotypeHaplotype mapHapmap projectHumanHuman genomeHumansImputationLinkage disequilibriumMachine learningMarkov chainMarkov chainsModelMultipleNeural networks, computerPolymorphism, single nucleotidePopulationPopulation structurePrivacyRestricted boltzmann machineSingle nucleotide polymorphism

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Plos Genetics debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2021, se encontraba en la posición 27/175, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Genetics & Heredity.

Desde una perspectiva relativa, y atendiendo al indicador del impacto normalizado calculado a partir de las Citas Mundiales proporcionadas por WoS (ESI, Clarivate), arroja un valor para la normalización de citas relativas a la tasa de citación esperada de: 5.33. Esto indica que, de manera comparada con trabajos en la misma disciplina y en el mismo año de publicación, lo ubica como trabajo citado por encima de la media. (fuente consultada: ESI 13 Nov 2025)

Esta información viene reforzada por otros indicadores del mismo tipo, que aunque dinámicos en el tiempo y dependientes del conjunto de citaciones medias mundiales en el momento de su cálculo, coinciden en posicionar en algún momento al trabajo, entre el 50% más citados dentro de su temática:

  • Media Ponderada del Impacto Normalizado de la agencia Scopus: 7.39 (fuente consultada: FECYT Mar 2025)

De manera concreta y atendiendo a las diferentes agencias de indexación, el trabajo ha acumulado, hasta la fecha 2025-12-20, el siguiente número de citas:

  • WoS: 71
  • Scopus: 82
  • Europe PMC: 61
  • Google Scholar: 148
[+]

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-12-20:

  • El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 144.
  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 146 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

  • El Score total de Altmetric: 207.
  • El número de menciones en la red social X (antes Twitter): 84 (Altmetric).
  • El número de menciones en Wikipedia: 1 (Altmetric).
  • El número de menciones en medios de comunicación: 18 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
[+]

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: Estonia; France; Italy.

[+]

Reconocimientos ligados al ítem

This work was supported by the European Union through the European Regional Development Fund (Project No. 2014-2020.4.01.16-0024, MOBTT53: LP, DM, BY; Project No. 2014-2020.4.01.16-0030: LO, FM); the Estonian Research Council grant PUT (PRG243): LP; DIM One Health 2017 (number RPH17094JJP): FJ; Comunidad de Madrid and the Complutense University of Madrid (Spain) through the Atraccion de Talento program (Ref. 2019-T1/TIC-13298): AD; Laboratoire de Recherche en Informatique "Promoting Collaborations & Scientific Excellence of Young Researchers": FJ. The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript.
[+]