Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/6406
DESENVOLVIMENTO DE UMA ABORDAGEM COMPUTACIONAL PARA A TRADUÇÃO IN SILICO DE VARIANTES DE SPLICING DETECTADAS NO TRANSCRIPTOMA HUMANO
Silva, Raphael Tavares da | Date Issued:
2012
Author
Advisor
Comittee Member
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
Um dos mecanismos capaz de aumentar a diversidade do proteoma de eucariotos é o splicing alternativo nos pré-mRNAs. Este mecanismo celular ocorre durante a transcrição dos genes, sendo ocasionado por um ou mais dos seguintes eventos: retenção de íntrons, uso alternativo de sítio de splice 5', uso alternativo de sítio de splice 3' e uso alternativo de éxons. Análises recentes de Bioinformática utilizando experimentos de RNA-Seq mostram que aproximadamente 90% dos genes humanos produzem mais de um transcrito decorrente de eventos de splicing alternativo. O impacto do splicing alternativo no proteoma humano vem sendo alvo de algumas abordagens de Bioinformática, sendo esperado que uma grande porção de tais transcritos alternativos possa alterar o conteúdo da cadeia polipeptídica obtida após a sua tradução. Devido à sua importância, diversos trabalhos já foram desenvolvidos com o objetivo de facilitar a identificação de eventos de splicing alternativo a partir de dados provenientes de cDNA, bem como sua associação com a estrutura das proteínas de suas isoformas. Entretanto, são poucas as abordagens que realizaram a tradução in silico do transcriptoma humano na busca por variantes de splicing e a utilização de dados oriundos de sequenciadores de segunda geração (NGS) ainda é muito pouco explorada para tratar do tema. Desta maneira, o presente projeto tem como objetivo a aplicação de uma nova abordagem para a identificação e tradução de variantes de splicing alternativo usando dados de NGS. Foram utilizadas leituras da plataforma de sequenciamento Roche/454 oriundas de estudos de câncer para um enriquecimento de nosso banco de dados original que continha previamente mRNAs completos e ESTs. Após o enriquecimento, a metodologia empregada pelo nosso grupo conseguiu detectar 4.574 variantes de splicing inéditas em nosso banco. O novo banco gerado foi traduzido levando a criação de um repertório proteico contendo 159.638 sequências polipeptídicas não redundantes. Na busca por variantes inéditas utilizando dados de proteômica, foram identificadas três possíveis nos genes humanos tubulina 2b, tubulina 4b e actina. Dados de sequenciamento da plataforma Illumina também foram utilizados para uma avaliação da sua contribuição em número de variantes e sequências polipeptídicas traduzidas em nosso repertório. Encontramos que a nossa abordagem foi capaz de anotar 53% mais sequências polipeptídicas quando comparada ao repertório de ENSEMBL Gene. Desta forma, acreditamos que o presente projeto pode auxiliar no melhoramento da anotação de peptídeos encontrados por técnicas de proteômica, bem como no descobrimento de novos marcadores moleculares.
Abstract
Alternative splicing of pre-mRNAs is one of the mechanisms capable to increase the proteome diversity in eukaryotes. This cellular mechanism occurs during the transcription of genes and is associated with one or more of the following events: intron retention, 5’ alternative splice, 3’ alternative splice and exon skipping. Recent Bioinformatics analysis using RNA-Seq experiments showed that approximately 90% of human genes produce more than one transcript due to alternative splicing events. The impact of alternative splicing in the human proteome has been the focus of some Bioinformatics approaches and is expected that the majority part of these alternative transcripts can alter the polypeptide chain produced after its translation. Due to its importance, many studies have been developed focused on facilitating the identification of alternative splicing events based on cDNA data, as well as to study the protein structure of its isoforms. However, few studies performed the in silico translation of the human transcriptome to search for new splicing isoforms using Next Generation Sequencing (NGS) data. In this way, our project aims to the development of a new approach to identify and translate alternative splicing isoforms using NGS data. Roche/454 reads of cancer studies were used to enrich our initial database, which was previously populated with full-length mRNAs and ESTs data. After the enrichment step, the methodology developed by our group could detect 4,574 new splicing variants in our database. The enriched database was translated, producing a protein repository with 159,638 non-redundant polypeptide sequences. Searching for new isoforms using experimental proteomic data, three possible new isoforms were identified for the human genes tubulin 2b, tubulin 4b and actin. Illumina sequencing data was used to assess its contribution for the number of new isoforms and the translated polypeptide sequences on our database. We realized that our approach was capable to annotate 53% more polypeptide sequences when compared with the ENSEMBL Gene repository. In this way, we believe that our project can support the improvement of peptide annotation found by proteomic techniques, as well as to discover new molecular markers.
Share