Advisor | Pitaluga, André Nóbrega | |
Author | Ribeiro, Antonio Cláudio Bello | |
Access date | 2013-09-20T18:32:48Z | |
Available date | 2013-09-20T18:32:48Z | |
Document date | 2012 | |
Citation | RIBEIRO, Antonio Cláudio Bello. LASZLO @ GALAXY - Um protótipo de serviço de montagem de genomas a partir de dados de sequenciamento de próxima geração (NGS). Rio de Janeiro, 2012. 276f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz. Rio de Janeiro, RJ, 2012. | pt_BR |
URI | https://www.arca.fiocruz.br/handle/icict/6943 | |
Abstract in Portuguese | As tecnologias NGS (Next-Generation Sequencing), desenvolvidas para reduzir o custo e o tempo do processo de sequenciamento, geram uma grande massa de dados, a um custo relativamente baixo e com grande acurácia. No entanto, as leituras curtas, por elas produzidas, dificultam sobremaneira o processo de montagem de genomas, originando novos problemas computacionais. Para tentar suplantar esses desafios, várias ferramentas de software estão disponíveis e continuam a ser desenvolvidas. Cada um desses pacotes possui vantagens e desvantagens e, na maioria das vezes, se apresenta como uma solução individual, não estando integrado a outros. Além disso, tipicamente é exigido um conhecimento mais avançado de informática para a sua correta instalação, configuração e operação; o que, nem sempre, é a realidade do usuário final. Neste contexto, o projeto nomeado LASZLO (Linkage of Assembly Scripts Zero-costed and with License Opened) @ GALAXY propõe combinar diferentes ferramentas de tratamento de dados de NGS de uso livre, na forma de um protótipo básico de serviço de montagem de genomas, buscando facilitar o trabalho do usuário através da disponibilização de uma interface Web, sugestões de parametrização e de fluxos de trabalho para esse tipo de análise. Tomando por base o framework Galaxy, foram agregados fluxos de trabalho para montagens de dados de sequenciamento reais de diferentes organismos e provenientes das tecnologias Illumina, SOLiD™ e 454. O caráter aplicado do projeto originou soluções pontuais para atender a necessidades específicas, as quais foram reunidas sob o módulo NGS: LASZLO's Sandbox, uma "caixa de ferramentas" especialmente designada às abordagens de montagem do tipo de novo e com auxílio de genoma de referência. Durante a pesquisa, o protótipo LASZLO @ GALAXY processou, por exemplo, dados de sequenciamento de Leishmania amazonensis, contribuindo para um primeiro processo de avaliação do genoma do referido organismo. Atualmente, observa-se que a produção de dados não é o mais o "gargalo" em projetos de sequenciamento, mas sim o fluxo de análise subsequente sobre o material obtido. Muitas vezes, tais dados não se traduzem imediatamente em expansão do conhecimento biológico, devido às dificuldades encontradas pelo biólogo experimental em lidar, não somente com a miríade de ferramentas disponíveis, mas também com fatores como a inerente necessidade de integração entre elas e a implementação de infra-estrutura adequada para a sua operação. Os resultados obtidos no projeto indicam que o sistema proposto, vislumbrado como um eventual serviço institucional ou mesmo de menor âmbito, pode se tornar um aliado do usuário final quanto à manipulação dos dados de NGS. | pt_BR |
Language | por | pt_BR |
Publisher | Instituto Oswaldo Cruz | pt_BR |
Rights | open access | pt_BR |
Subject in Portuguese | Biologia computacional | pt_BR |
Subject in Portuguese | Genoma | pt_BR |
Subject in Portuguese | Genômica | pt_BR |
Subject in Portuguese | Sequenciamento | pt_BR |
Subject in Portuguese | NGS | pt_BR |
Subject in Portuguese | Montagem | pt_BR |
Subject in Portuguese | Galaxy | pt_BR |
Subject in Portuguese | Título | pt_BR |
Title | LASZLO @ GALAXY - Um protótipo de serviço de montagem de genomas a partir de dados de sequenciamento de próxima geração (NGS) | pt_BR |
Alternative title | LASZLO @ GALAXY - A genome assembly service prototype using Next-Generation Sequencing (NGS) data | pt_BR |
Type | Dissertation | |
Defense date | 2012-08-21 | |
Departament | Vice Direção de Ensino, Informação e Comunicação | pt_BR |
Defense Institution | Instituto Oswaldo Cruz | pt_BR |
Degree level | Mestrado acadêmico | pt_BR |
Place of Defense | Rio de Janeiro | pt_BR |
Program | Pós-Graduação em Biologia Computacional e Sistemas | pt_BR |
Co-Advisor | Dávila, Alberto Mártin Rivera | |
Abstract | The NGS (Next-Generation Sequencing) technologies, designed to reduce sequencing process costs and time, generate a huge amount of data, at a relatively low cost and with great accuracy. However, the produced short reads strongly difficult the genome assembly process, originating new computational issues. To overcome those challenges, there are several software tools available and continuously being developed. Each of these tools presents advantages and disadvantages and most of them are isolated, not integrated solutions. Moreover, typically it is required a higher level of computer-literacy for their proper installation, configuration and usage, which, not always, is the end-user reality. In this context, the project named LASZLO (Linkage of Assembly Scripts Zero-costed and with License Opened) @ GALAXY suggests to combine different open source tools for NGS data handling, as a basic prototype service for genome assembly, aiming at simplifying the end-user task by providing a Web interface, suggestions of parametrization and workflows for this kind of analysis. Based on the Galaxy framework, some workflows for the assembly of real sequencing data from different organisms and produced by the Illumina, SOLiD™ and 454 technologies were aggregated. Also, due to the applied characteristic of the project, a few punctual solutions were generated to address specific needs. Those solutions were encapsulated in the NGS: LASZLO's Sandbox module, a "toolbox" especially tailored for the de novo and reference-guided assembly approaches. During the research, the LASZLO @ GALAXY prototype processed, for instance, sequencing data of the Leishmania amazonensis organism, contributing for a first evaluating process of its genome. Presently, it's noticed that the data generation is no longer the "bottleneck" of the sequencing projects, but the downstream data analysis. Frequently, the acquired data is not immediately translated into biological knowledge expansion, due to the obstacles met by the experimental biologist when dealing, not only with the myriad of available tools, but also with factors like the inherent need of their integration and the deployment of the adequate infrastructure for their operation. The results achieved during project execution indicate that the proposed system, glimpsed as an eventual institutional service or even as one of smaller scope, might become an end-user's ally in the NGS data manipulation. | pt_BR |
Affilliation | Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Vice Direção de Ensino, Informação e Comunicação. Rio de Janeiro, RJ, Brasil. | pt_BR |
Subject | Computational Biology | pt_BR |
Subject | Genome | pt_BR |
Subject | Genomics | pt_BR |
Subject | Sequencing | pt_BR |
Subject | NGS | pt_BR |
Subject | Assembly | pt_BR |
Subject | Galaxy | pt_BR |
Member of the board | Souza, Marcos Paulo Catanho de | |
Member of the board | Koerich, Leonardo Barbosa | |
Member of the board | Mesquita, Rafael Dias | |
Member of the board | Mota, Fabio Faria da | |
Member of the board | Cruz, Oswaldo Gonçalves | |