Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/69681
GENÔMICA COMPARATIVA DE PROCARIOTOS: ANÁLISE DA VARIABILIDADE EM FUNÇÕES ENZIMÁTICAS
Bases de Dados de Ácidos Nucleicos
Sequenciamento de Nucleotídeos em Larga Escala
Pseudogenes
Bactérias
Archaea
Enzimas
Databases, Nucleic Acid
High-Throughput Nucleotide Sequencing
Pseudogenes
Bacteria
Archaea
Enzymes
Bases de Dados de Ácidos Nucleicos
Sequenciamento de Nucleotídeos em Larga Escala
Pseudogenes
Bactérias
Archaea
Enzimas
Catanho, Marcos | Date Issued:
2010
Alternative title
Comparative genomics of prokaryotes: analysis of variability in enzymatic functionsAuthor
Comittee Member
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Programa de Pós-Graduação em Biologia Celular e Molecular. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
Esta tese trata de abordagens computacionais para a análise comparativa de genomas em larga escala e da análise da variabilidade em funções enzimáticas de procariotos. Este trabalho apresenta um banco de dados denominado ProteinWorldDB, que representa um esforço importante para criar um conjunto de dados consistente e confiável de comparações entre o conteúdo protéico codificado por centenas de genomas completamente seqüenciados, usando uma abordagem rigorosa baseada em programação dinâmica. Além disto, este trabalho descreve uma metodologia aprimorada para detecção e anotação de pseudogenes em procariotos (e outros organismos com organização genômica similar), e uma análise da ocorrência, distribuição e padrões de extinção de enzimas análogas preditas em procariotos. A base de dados ProteinWorldDB oferece à comunidade científica a oportunidade de minerar dados comparativos calculados de forma precisa e usar a informação disponível – e.g. índices de similaridade (e suas estimativas estatísticas) entre pares ou grupos de proteínas, proteínas ortólogas e parálogas inferidas, genes taxonomicamente restritos (únicos), entre outras – como ponto de partida para análises subseqüentes. Nossa metodologia para a detecção e anotação de pseudogenes em procariotos, baseada em comparações entre seqüências codificantes e regiões intergênicas de genomas-alvos, apresenta duas inovações importantes: a reconstrução da seqüência remanescente a partir de todos os fragmentos encontrados, não somente a partir do mais similar e a determinação de limiares de similaridade adequados ao conjunto de dados analisado, com base em validações estatísticas. A aplicação deste método na busca de pseudogenes na via glicolítica/gliconeogênese de centenas de procariotos resultou em um número expressivo de novos pseudogenes identificados, mostrando a necessidade de se incluir mecanismos de busca sistemática de pseudogenes nos fluxos de anotação genômica de procariotos. A análise da ocorrência, distribuição e padrões de extinção de enzimas análogas preditas na via glicolítica/gliconeogênese de centenas de procariotos nos revelou um quadro complexo, difícil de ser interpretado, mesmo quando apenas um pequeno grupo de espécies selecionadas foi utilizado. Um estudo mais detalhado, relacionando os resultados obtidos ao estilo de vida, filogenia, estrutura e organização genômicas destas espécies, será necessária para tentar responder às questões fundamentais que nos colocamos: como surgem as enzimas análogas e, sobretudo, por que, aparentemente, ocorreram tantos eventos de origem independente de atividades enzimáticas durante a evolução, e por que existem diferentes formas análogas coexistindo no mesmo organismo? A manutenção de duas ou mais formas análogas poderia proporcionar flexibilidade metabólica e, portanto, uma vantagem seletiva, dependendo do ambiente e estilo de vida do organismo; ou, ainda, distintas formas poderiam competir pela execução de uma mesma função e, neste caso, sendo uma das formas mais competitiva que a outra, a desfuncionalização da forma menos competitiva poderia representar uma vantagem seletiva, já que o gasto energético com a biossíntese da enzima seria eliminado. Seria possível considerar enzimas análogas como indivíduos e seus grupos como populações, todos em competição por um nicho metabólico em particular? Neste caso, seria plausível imaginar que enzimas mais competitivas teriam uma vantagem seletiva sobre formas alternativas menos competitivas e, conseqüentemente, dispersar-se-iam entre os diversos genomas bacterianos, com o passar do tempo.
Abstract
This thesis deals with computational approaches for large-scale comparative analysis of genomes and with the investigation of the variability in enzymatic functions in prokaryotes. This work presents a database denominated ProteinWorldDB, which represents a major effort to create a reliable and consistent dataset of crosscomparisons of the whole protein content encoded in hundreds of completely sequenced genomes using a rigorous dynamic programming approach. It also describes an improved method to detect and annotate pseudogenes in prokaryotes, which can also be applied to other microorganisms with similar genomic organization, and an analysis of the frequency, distribution and extinction patterns of predicted analogous enzymes in prokaryotes. The ProteinWorldDB provides the scientific community the opportunity to mine accurately calculated comparative data and provides the use of this information – e.g. similarity scores (and statistical estimates) between pairs or groups of protein sequences, inferred orthologous and paralogous proteins, taxonomically restricted (unique) genes, among others – as a starting point for subsequent analysis. Our method to detect and annotate pseudogenes in prokaryotes, based on comparisons involving coding sequences and intergenic regions of target genomes, presents two relevant innovations: the reconstruction of the remnant sequence using the whole set of similar sequence fragments, instead of using only the most similar one, and the establishment of similarity thresholds adjusted to the particular dataset analyzed, based on statistical evaluations. The application of this method to the glycolysis/gluconeogenesis pathway of hundreds of prokaryotes resulted in a number of newly identified pseudogenes, evidencing the necessity to include systematic approaches to pseudogene detection/annotation in prokaryotic genome annotation pipelines. Analysis of the frequency, distribution and extinction patterns of predicted analogous enzymes in the glycolysis/gluconeogenesis pathway of hundreds of prokaryotes has revealed an intricate pattern, difficult to interpret, even if only a small group of selected species is considered. An in depth analysis, taking lifestyle, phylogeny, genomic structure and organization of the species involved into account, will be necessary to answer the critical questions we have posed to ourselves: how analogous enzymes arise and, above all, why so many events of independent origin of enzymatic functions have apparently occurred during evolution, and why are there distinct analogous forms coexisting in the same organism? Keeping two or more analogous forms could provide metabolic flexibility and therefore selective advantage, considering the organism’s environment and lifestyle, or yet distinct forms could compete to perform the same function, and in such a case, if one of them were more competitive than the other, the disfunctionalization of the less competitive form could present a selective advantage, since the energy expense to synthesize it would be abolished. One might also consider analogous enzymes as individuals and their clusters as populations, all in competition for a particular metabolic niche? In such a case, it would be plausible to think that more competitive enzymes could have a selective advantage over less competitive alternative forms, and could consequently spread over diverse bacterial genomes over time.
Keywords in Portuguese
GenômicaBases de Dados de Ácidos Nucleicos
Sequenciamento de Nucleotídeos em Larga Escala
Pseudogenes
Bactérias
Archaea
Enzimas
Keywords
GenomicsDatabases, Nucleic Acid
High-Throughput Nucleotide Sequencing
Pseudogenes
Bacteria
Archaea
Enzymes
DeCS
GenômicaBases de Dados de Ácidos Nucleicos
Sequenciamento de Nucleotídeos em Larga Escala
Pseudogenes
Bactérias
Archaea
Enzimas
Share