Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/67001
USO DA PROTEOGENÔMICA COMO ABORDAGEM METODOLÓGICA PARA INVESTIGAÇÃO DE NOVOS GENES E VARIANTES MOLECULARES EM MODELOS BIOLÓGICOS DE IMPORTÂNCIA MÉDICA
Anotação de Sequência Molecular
Perfilação da Expressão Gênica
Proteômica
Doença de Alzheimer
Genética
Infecções por Angiostrongylus
Silva, Esdras Matheus Gomes da | Date Issued:
2022
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
A transcriptômica tem o sequenciamento em larga escala de moléculas de RNA (RNA-Seq) como o método mais utilizado atualmente para o estudo qualitativo e quantitativo dessa classe de moléculas. A proteômica tem a espectrometria de massas (MS) como principal ferramenta analítica, sendo mais frequentemente empregada na abordagem shotgun. A proteogenômica é a área de pesquisa que reúne dados dessas diferentes tecnologias para auxiliar na resolução de problemas biológicos e de bioinformática tais como a identificação de variantes de “splicing” alternativo e a anotação de genomas. Neste projeto, utilizamos a abordagem proteogenômica para: 1) Estudar variantes de “splicing” ortólogas em dados de MS de proteínas do cérebro de humano e camundongo; 2) Estudar o padrão de abundância e diversidade proteica em dados inéditos de MS de proteínas do córtex pré-frontal (CPF) e hipocampo (HPC) de um modelo de rato (ICV-STZ) da doença de Alzheimer (DA); 3) Estudar o padrão de expressão de transcritos e suas proteínas para aprimorar a anotação do genoma do nematoide Angiostrongylus costaricensis, causador da doença angiostrongilíase abdominal (AA). Para as análises de amostras de humano e camundongo, foi utilizado um banco de dados de sequências proteicas personalizado específico para cada espécie e dados públicos de MS de proteínas de duas regiões cerebrais: corpo caloso e bulbo olfatório. Seis variantes de “splicing” ortólogas foram identificadas e posteriormente confirmadas em dados públicos de RNA-Seq de camundongo e experimentalmente validadas por RT-qPCR. Duas dessas variantes, PKM1 e STXBP1a, também foram estimadas mais abundantes em um conjunto de dados públicos de MS de proteínas de um modelo murino (APP/PS1) da DA quando comparado com o seu controle (tipo selvagem) Esses resultados corroboram estudos anteriores que sugerem que essas variantes podem ter um papel na formação de agregados do tipo amiloide no cérebro, característica importante para a DA. Em seguida, um banco de dados de sequências proteicas personalizado de rato foi utilizado para a análise de dados inéditos de MS de proteínas das duas regiões cerebrais do modelo ICV-STZ. Como resultado, proteínas diferencialmente abundantes no CPF e HPC foram submetidas a uma análise de redes indicando uma grande participação de proteínas da membrana mitocondrial no estabelecimento da DA. O emprego de uma abordagem de proteogenômica para o aprimoramento da anotação do genoma de A. costaricensis utilizou dados inéditos de RNA-Seq para o alinhamento ao rascunho do genoma, servindo como evidência para predição de genes, variantes de “splicing” e variantes de nucleotídeo único (SNVs). A anotação de referência (WormBase) foi aprimorada com as novas predições, que passou a contar com 2.553 mRNAs de novos genes e 11.818 novas variantes de “splicing” e 350.292 SNVs. Os transcritos com quadro de leitura aberto (ORF) completos foram computacionalmente traduzidos e usados como banco de dados de sequências proteicas para análise dos dados de MS de proteínas. No total, 1.974 proteínas de novos genes, 402 novas proteoformas e 8.071 peptídeos contendo variantes de aminoácido único (SAAVs) foram identificados. Esperamos que o aprimoramento da anotação do genoma de A. costaricensis possa auxiliar futuros estudos que visem o diagnóstico e desenvolvimento de drogas para o tratamento da AA
Abstract
Currently, RNA sequencing (RNA-Seq) is the high throughput method most used for the qualitative and quantitative analysis of the transcriptome. Mass spectrometry (MS) is the main analytical tool applied on proteomics, being most frequently used through the shotgun approach. Proteogenomics is the research area that make use of data from these different technologies to solve biological and bioinformatic problems such as the identification of alternative splicing variants and genome annotation. In this project, we used the proteogenomic approach to: 1) Study orthologous splicing variants in MS data from human and mouse brain proteins; 2) Study the protein diversity and abundance in MS data from prefrontal cortex (PFC) and hippocampus (HPC) of a rat model (ICV-STZ) of Alzheimer's disease (AD); 3) Study the transcriptome and proteome profile to improve the genome annotation of the nematode Angiostrongylus costaricensis, which causes an abdominal disease known as angiostrongyliasis (AA). To analyze human and mouse data, a personalized protein sequence database specific for each species and public MS data of proteins from two brain regions were used: corpus callosum and olfactory bulb. Six orthologous splicing variants were identified and further confirmed in publicly available mouse RNA-Seq data and experimentally validated by RT-qPCR on healthy mouse samples. Two of these variants, PKM1 and STXBP1a, were also more abundant in a public MS dataset of proteins from a murine model (APP/PS1) of AD when compared to its control (wild-type). These results support previous studies suggesting that these variants may play a role in the formation of amyloid-like aggregates in the brain, an important feature for AD. Furthermore, a customized mouse protein sequence database was used for the analysis of unpublished MS data from proteins from the two brain regions of the ICV-STZ model As a result, differentially abundant proteins in CPF and HPC were subjected to a network analysis indicating a large participation of mitochondrial membrane proteins in the establishment of AD. To improve the genome annotation of A. costaricensis unpublished RNASeq reads were aligned onto the genome draft sequence, serving as evidence for gene prediction, splicing variants, and single nucleotide variants (SNVs). The reference genome annotation (WormBase) was improved based on these new predictions, composing 2,553 novel mRNAs, 11,818 novel splicing variants and 350,292 SNVs. The transcripts containing complete open reading frame (ORF) were computationally translated and used as a protein sequence database for analysis of protein MS data. In total, 1,974 novel proteins, 402 novel splicing proteoforms and 8,071 peptides containing single amino acid variants (SAAVs) were identified. We hope that this improved A. costaricensis genome annotation can help the development diagnosis methods and drugs for the treatment of AA
DeCS
ProteogenômicaAnotação de Sequência Molecular
Perfilação da Expressão Gênica
Proteômica
Doença de Alzheimer
Genética
Infecções por Angiostrongylus
Share