
Indexado en
Licencia y uso
Grant support
Ministerio de Ciencia e Innovacion, Grant/Award Number: PID2019- 110330GB- C22
Análisis de autorías institucional
Mora-Marquez, FernandoAutor o CoautorNuno, Juan CarlosAutor o CoautorSoto, AlvaroAutor o CoautorDe Heredia, Unai LopezAutor (correspondencia)Missing genotype imputation in non-model species using self-organizing maps
Publicado en:Molecular Ecology Resources. 25 (3): e13992-e13992 - 2025-04-01 25(3), DOI: 10.1111/1755-0998.13992
Autores: Mora-Marquez, Fernando; Nuno, Juan Carlos; Soto, Alvaro; de Heredia, Unai Lopez
Afiliaciones
Resumen
Current methodologies of genome-wide single-nucleotide polymorphism (SNP) genotyping produce large amounts of missing data that may affect statistical inference and bias the outcome of experiments. Genotype imputation is routinely used in well-studied species to buffer the impact in downstream analysis, and several algorithms are available to fill in missing genotypes. The lack of reference haplotype panels precludes the use of these methods in genomic studies on non-model organisms. As an alternative, machine learning algorithms are employed to explore the genotype data and to estimate the missing genotypes. Here, we propose an imputation method based on self-organizing maps (SOM), a widely used neural networks formed by spatially distributed neurons that cluster similar inputs into close neurons. The method explores genotype datasets to select SNP loci to build binary vectors from the genotypes, and initializes and trains neural networks for each query missing SNP genotype. The SOM-derived clustering is then used to impute the best genotype. To automate the imputation process, we have implemented gtImputation, an open-source application programmed in Python3 and with a user-friendly GUI to facilitate the whole process. The method performance was validated by comparing its accuracy, precision and sensitivity on several benchmark genotype datasets with other available imputation algorithms. Our approach produced highly accurate and precise genotype imputations even for SNPs with alleles at low frequency and outperformed other algorithms, especially for datasets from mixed populations with unrelated individuals.
Palabras clave
Indicios de calidad
Impacto bibliométrico. Análisis de la aportación y canal de difusión
El trabajo ha sido publicado en la revista Molecular Ecology Resources debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2025, se encontraba en la posición 58/313, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Biochemistry & Molecular Biology.
2025-07-17:
- WoS: 1
- Scopus: 1
Impacto y visibilidad social
Análisis de liderazgo de los autores institucionales
Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (MORA MARQUEZ, FERNANDO) y Último Autor (LOPEZ DE HEREDIA LARREA, UNAI).
el autor responsable de establecer las labores de correspondencia ha sido LOPEZ DE HEREDIA LARREA, UNAI.