Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/67943
DESIGN AND IMPLEMENTATION OF A METAGENOMIC ANALYTICAL PIPELINE FOR RESPIRATORY PATHOGEN DETECTION
Author
Affilliation
Universidade Federal da Bahia. Instituto de Biologia. Salvador, BA, Brasil / Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para a Saúde. Salvador, BA, Brasil.
Universidade Federal do Rio de Janeiro. Instituto de Pós-Graduação e Pesquisa em Engenharia Alberto Luiz Coimbra. Laboratório de Engenharia de Sistemas de Saúde. Rio de Janeiro, RJ, Brasil / Universidade Federal do Rio de Janeiro. Instituto de Biologia. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para a Saúde. Salvador, BA, Brasil / Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil / Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil / Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para a Saúde. Salvador, BA, Brasil.
Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA5, Brasil / Instituto Nacional de Estudos Interdisciplinares Transdisciplinares em Ecologia e Evolução. Salvador, BA, Brasil.
Universidade Federal do Rio de Janeiro. Instituto de Pós-Graduação e Pesquisa em Engenharia Alberto Luiz Coimbra. Laboratório de Engenharia de Sistemas de Saúde. Rio de Janeiro, RJ, Brasil / Universidade Federal do Rio de Janeiro. Instituto de Biologia. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para a Saúde. Salvador, BA, Brasil / Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil / Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Laboratório de Medicina de Precisão e Saúde Pública. Salvador, BA, Brasil / Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA, Brasil.
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Centro de Integração de Dados e Conhecimento para a Saúde. Salvador, BA, Brasil.
Universidade Federal da Bahia. Faculdade de Medicina. Salvador, BA5, Brasil / Instituto Nacional de Estudos Interdisciplinares Transdisciplinares em Ecologia e Evolução. Salvador, BA, Brasil.
Abstract
Objective: We developed an in-house bioinformatics pipeline to improve the detection of respiratory pathogens in metagenomic sequencing data. This pipeline addresses the need for short-time analysis, high accuracy, scalability, and reproducibility in a high-performance computing environment. Results: We evaluated our pipeline using ninety synthetic metagenomes designed to simulate nasopharyngeal swab samples. The pipeline successfully identified 177 out of 204 respiratory pathogens present in the compositions, with an average processing time of approximately 4 min per sample (processing 1 million paired-end reads of 150 base pairs). For the estimation of all the 470 taxa included in the compositions, the pipeline demonstrated high accuracy, identifying 420 and achieving a correlation of 0.9 between their actual and predicted relative abundances. Among the identified taxa, 27 were significantly underestimated or overestimated, including only three clinically relevant pathogens. We also validated the pipeline by applying it to a clinical dataset from a study on metagenomic pathogen characterization in patients with acute respiratory infections and successfully identified all pathogens responsible for the diagnosed infections. These findings underscore the pipeline’s effectiveness in pathogen detection and highlight its potential utility in respiratory pathogen surveillance.
Share