Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/28094
METODOLOGIA DE DESENVOLVIMENTO DE DATA MARTS PARA APOIO À DECISÃO BASEADO NO USO DE ONTOLOGIAS E ESTUDO DE CASO PARA A PRIORIZAÇÃO DE ALVOS DE FÁRMACOS EM TRIPANOSSOMATÍDEOS
Teixeira, Marlon Amaro Coelho | Date Issued:
2018
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
A anotação de texto semântico permite a associação de conceitos presentes em uma ontologia a expressões textuais (termos), que são legíveis por agentes de software. No cenário científico, isso é particularmente útil, porque muitas descobertas científicas estão "escondidas" dentro de artigos acadêmicos. A área Biomédica possui mais de 300 ontologias, a maioria composta de mais de 500 conceitos. Estas ontologias podem ser usadas para anotar e/ou indexar artigos científicos. No entanto, no contexto de uma pesquisa científica, uma simples consulta baseada em palavras-chave usando a interface de uma biblioteca de textos digitais, pode retornar mais de mil hits. A análise de um conjunto tão grande de textos anotados com ontologias não é uma tarefa fácil. Neste sentido, este trabalho apresenta um método chamado TOETL, para construir uma visão analítica sobre esses textos. A ideia é fornecer uma maneira sistemática de processar um grande conjunto de artigos científicos e apoiar o pesquisador em uma melhor tomada de decisão em relação aos seus interesses de pesquisa específicos Para ilustrar a aplicação do método, um cenário científico foi escolhido com foco na pesquisa de essencialidade de gene. Este é um conceito muito importante na busca de genes com potencial para novos alvos de fármacos. Um corpus de artigos foi selecionado e semanticamente anotado com três ontologias diferentes. Este trabalho apresenta como os dados de anotação foram extraídos, organizados e agregados em um esquema dimensional de um data mart chamado TaP DM, aplicando a metodologia proposta. O estudo de caso teve como foco os seguintes protozoários: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma brucei e Trypanosoma cruzi. O TaP DM permite aos pesquisadores visualizarem, de forma multidimensional, os diversos conceitos envolvidos nos artigos que abordam a essencialidade de genes. Ao final, são realizadas consultas no TaP DM mostrando algumas estratégias de pesquisa sobre esses dados e discutindo como eles podem ajudar o cientista a priorizar alvos de fármacos em protozoários parasitas.
Abstract
Semantic text annotation enables the association of semantic information ontology concepts to text expressions (terms), which are readable by software agents. In the scientific scenario, this is particularly useful because a lot of scientific discoveries are \hidden" within academic articles. The Biomedical area has more than 300 ontologies, most of them composed of over 500 concepts. These ontologies can be used to annotate scientific papers and thus, facilitate data extraction. However, in the context of a scientific research, a simple keyword-based query using the interface of a digital scientific texts library can return more than a thousand hits. The analysis of such a large set of texts annotated with such numerous and large ontologies, is not an easy task. Here it is described a method called TOETL, to build an analytical view over such texts. To illustrate the method application, a scientific scenario was chosen with focus on the research of gene essentiality The later is a key concept to be considered when searching for genes showing potential as anti-infective drug targets. A corpus of selected papers was semantically annotated using three distinct ontologies. This work presents how the annotation data was extracted, organized and aggregated into a dimensional schema of a demo Data Mart. Thus, the idea is to provide a systematic way to process a large set of scientific articles and support the researcher in better decision making with respect to his/her specific research interests. We also present a case study on the design and load of a data mart with focus on gene essentiality for the following five protozoa: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma brucei and Trypanosoma cruzi. In addition to the TOETL methodology, this work presents as a case study the TaP DM, which was conceived from the application of the proposed methodology. This data mart allows researchers to view, in a multidimensional way, the various concepts involved in articles that discuss the essentiality of genes.
Share