Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/23812
MELHORAMENTO DE DOCKING-BASED VIRTUAL SCREENING USANDO ABORDAGEM DE DEEP LEARNING
Pereira, Janaina Cruz | Date Issued:
2017
Author
Advisor
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveis
Abstract
Scoring functions are one of the biggest problems in Docking-Based Virtual Screening - DBVS approach because these functions are not able to reliably classify docked ligands. In this work, we propose a new Deep Learning based approach for improving DBVS. The proposed deep neural network, DeepVS, uses the output of a docking program and learns how to extract relevant features from basic data such as atom and residues types obtained from protein-ligand complexes. Our approach introduces the use of atom and amino acid embeddings and implements an effective way of creating distributed vector representations of protein-ligand complexes by modeling the compound as a set of atom contexts that is further processed by a convolutional layer. One of the main advantages of the proposed method is that it does not require feature engineering. We evaluate DeepVS on the Directory of Useful Decoys (DUD), using the output of two docking programs: Autodock Vina1.2 and Dock 6.6. In addition, we also report results using a subset of the DUD-E database. DeepVS performance is evaluated with the leave-one-out cross-validation approach and using the well-established metrics enrichment factor and AUC. Using the output of the Autodockvina1.2 program, DeepVS achieves an AUC ROC of 0.81, which to the best of our knowledge is the best AUC result reported so far to DBVS using the 40 receptors in DUD For the subset of 44 DUD-E receptors used in this work, the cross-validation experiments resulted in an AUC of 0.93, which is also better than the AUC reported on recently published works. Finally, we applied DeepVS for a case study involving the enzyme Cruzain. The cysteine protease Cruzain is considered as the main cysteine protease of the protozoan parasite Trypanosoma cruzi, etiologic agent of Chagas disease. In this case study we perform all the main steps of structured based virtual screening involving, choice of crystallographic structure, study of the binding site, studies with positive controls to verify the method to be applied, selection of a set of compounds from a docking database, virtual screening, selection of potentially active compounds and visual inspection of selected compounds. The strategies used in the case study made it possible to identify seven drug candidate compounds in a dataset of 90,769 commercially available compounds
Share