Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/55556
NATORA, A RELATEDNESS-PRUNING METHOD TO MINIMIZE THE LOSS OF DATASET SIZE IN GENETIC AND OMICS ANALYSES
Author
Leal, Thiago Peixoto
Furlan, Vinicius C
Gouveia, Mateus Henrique
Duarte, Julia Maria Saraiva
Fonseca, Pablo AS
Tou, Rafael
Scliar, Marilia de Oliveira
Araujo, Gilderlanio Santana de
Costa, Lucas F.
Zolini, Camila
Peixoto, Maria Gabriela Campolina Diniz
Carvalho, Maria Raquel Santos
Costa, Maria Fernanda Furtado Lima
Gilman, Robert H
Tarazona-Santos, Eduardo
Rodrigues, Maíra Ribeiro
Furlan, Vinicius C
Gouveia, Mateus Henrique
Duarte, Julia Maria Saraiva
Fonseca, Pablo AS
Tou, Rafael
Scliar, Marilia de Oliveira
Araujo, Gilderlanio Santana de
Costa, Lucas F.
Zolini, Camila
Peixoto, Maria Gabriela Campolina Diniz
Carvalho, Maria Raquel Santos
Costa, Maria Fernanda Furtado Lima
Gilman, Robert H
Tarazona-Santos, Eduardo
Rodrigues, Maíra Ribeiro
Affilliation
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Lerner Research Institute. Genomic Medicine.Cleveland Clinic. Cleveland, OH, United States
Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Center for Research on Genomics & Global Health. National Human Genome Research Institute. National Institutes of Health. Bethesda, MD, United States
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Centre for Genetic Improvement of Livestock. Department of Animal Biosciences. University of Guelph. Guelph, Ontario, Canadá
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade de São Paulo. Instituto de Biociências. Centro de Estudos doGenoma Humano e Células-Tronco. São Paulo, SP, Brazil
Universidade Federal do Pará. Instituto de Ciências Biológicas. Programa de Pós-Graduação em Biologia Molecular. Laboratório de Genética Humana e Médica. Belém, PA, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Beagle. Belo Horizonte, MG, Brazil/Mosaico Translational Genomics Initiative, Belo Horizonte, MG, Brazil
Embrapa Gado de Leite, Embrapa, Juiz de Fora, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Fundação Oswaldo Cruz. Instituto René Rachou. Belo Horizonte, MG, Brazil
Universidad Peruana Cayetano Heredia.Lima, Lima, Perú/ Dept of International Health. Johns Hopkins School of Public Health Baltimore. Baltimore, MD, USA
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Mosaico Translational Genomics Initiative, Belo Horizonte, MG, Brazil/Dept of International Health. Johns Hopkins School of Public Health Baltimore. Baltimore, MD, USA
Universidade de São Paulo. Instituto de Biociências. Departamento de Genética e Biologia Evolutiva. São Paulo, SP, Brazil
Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Center for Research on Genomics & Global Health. National Human Genome Research Institute. National Institutes of Health. Bethesda, MD, United States
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Centre for Genetic Improvement of Livestock. Department of Animal Biosciences. University of Guelph. Guelph, Ontario, Canadá
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade de São Paulo. Instituto de Biociências. Centro de Estudos doGenoma Humano e Células-Tronco. São Paulo, SP, Brazil
Universidade Federal do Pará. Instituto de Ciências Biológicas. Programa de Pós-Graduação em Biologia Molecular. Laboratório de Genética Humana e Médica. Belém, PA, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Beagle. Belo Horizonte, MG, Brazil/Mosaico Translational Genomics Initiative, Belo Horizonte, MG, Brazil
Embrapa Gado de Leite, Embrapa, Juiz de Fora, MG, Brazil
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil
Fundação Oswaldo Cruz. Instituto René Rachou. Belo Horizonte, MG, Brazil
Universidad Peruana Cayetano Heredia.Lima, Lima, Perú/ Dept of International Health. Johns Hopkins School of Public Health Baltimore. Baltimore, MD, USA
Universidade Federal de Minas Gerais. Instituto de Ciências Biológicas. Departamento de Genética, Ecologia e Evolução. Belo Horizonte, MG, Brazil/Mosaico Translational Genomics Initiative, Belo Horizonte, MG, Brazil/Dept of International Health. Johns Hopkins School of Public Health Baltimore. Baltimore, MD, USA
Universidade de São Paulo. Instituto de Biociências. Departamento de Genética e Biologia Evolutiva. São Paulo, SP, Brazil
Abstract
Genetic and omics analyses frequently require independent observations, which is not guaranteed in real datasets. When relatedness cannot be accounted for, solutions involve removing related individuals (or observations) and, consequently, a reduction of available data. We developed a network-based relatedness-pruning method that minimizes dataset reduction while removing unwanted relationships in a dataset. It uses node degree centrality metric to identify highly connected nodes (or individuals) and implements heuristics that approximate the minimal reduction of a dataset to allow its application to complex datasets. When compared with two other popular population genetics methodologies (PLINK and KING), NAToRA shows the best combination of removing all relatives while keeping the largest possible number of individuals in all datasets tested and also, with similar effects on the allele frequency spectrum and Principal Component Analysis than PLINK and KING. NAToRA is freely available, both as a standalone tool that can be easily incorporated as part of a pipeline, and as a graphical web tool that allows visualization of the relatedness networks. NAToRA also accepts a variety of relationship metrics as input, which facilitates its use. We also release a genealogies simulator software used for different tests performed in this study.
Share