Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/56767
Type
ArticleCopyright
Open access
Sustainable Development Goals
04 Educação de qualidadeCollections
- IOC - Artigos de Periódicos [12708]
Metadata
Show full item record
A DATA SCIENCE APPROACH FOR THE IDENTIFICATION OF MOLECULAR SIGNATURES OF AGGRESSIVE CANCERS
Agressividade
PCA
RFC
Aprendizado de máquina
Interactoma
RNA-seq
vias WNT
Genes prognósticos
Aggressiveness
PCA
RFC
Machine learning
Interactome
RNA-seq
WNT pathways
Prognostic genes
Author
Affilliation
Center for Medical Statistics, Informatics and Intelligent Systems, Institute for Artificial Intelligence, Medical University of Vienna, 1090 Vienna, Austria / Centre for Translational Bioinformatics, William Harvey Research Institute, Queen Mary University of London, London E14NS, UK / ITTM S.A.—Information Technology for Translational Medicine, Esch-sur-Alzette, Luxembourg 4354, Luxembourg.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Programa de Computação Científica. Laboratório de Modelagem Computacional de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Rio de Janeiro, RJ, Brasil / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Laboratório Interdisciplinar de Pesquisas Médicas. Rio de Janeiro, RJ, Brasil / Instituto Nacional de Câncer. Programa de Imunologia e Biologia Tumoral. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Programa de Computação Científica. Laboratório de Modelagem Computacional de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Rio de Janeiro, RJ, Brasil / Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Laboratório Interdisciplinar de Pesquisas Médicas. Rio de Janeiro, RJ, Brasil / Instituto Nacional de Câncer. Programa de Imunologia e Biologia Tumoral. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Centro de Desenvolvimento Tecnológico em Saúde. Plataforma de Modelagem de Sistemas Biológicos. Rio de Janeiro, RJ, Brasil.
Abstract
The main hallmarks of cancer include sustaining proliferative signaling and resisting cell
death. We analyzed the genes of the WNT pathway and seven cross-linked pathways that may
explain the differences in aggressiveness among cancer types. We divided six cancer types (liver,
lung, stomach, kidney, prostate, and thyroid) into classes of high (H) and low (L) aggressiveness
considering the TCGA data, and their correlations between Shannon entropy and 5-year overall
survival (OS). Then, we used principal component analysis (PCA), a random forest classifier (RFC),
and protein–protein interactions (PPI) to find the genes that correlated with aggressiveness. Using
PCA, we found GRB2, CTNNB1, SKP1, CSNK2A1, PRKDC, HDAC1, YWHAZ, YWHAB, and PSMD2.
Except for PSMD2, the RFC analysis showed a different list, which was CAD, PSMD14, APH1A,
PSMD2, SHC1, TMEFF2, PSMD11, H2AFZ, PSMB5, and NOTCH1. Both methods use different
algorithmic approaches and have different purposes, which explains the discrepancy between the
two gene lists. The key genes of aggressiveness found by PCA were those that maximized the separation of H and L classes according to its third component, which represented 19% of the total
variance. By contrast, RFC classified whether the RNA-seq of a tumor sample was of the H or L type.
Interestingly, PPIs showed that the genes of PCA and RFC lists were connected neighbors in the PPI
signaling network of WNT and cross-linked pathways.
Keywords in Portuguese
CãncerAgressividade
PCA
RFC
Aprendizado de máquina
Interactoma
RNA-seq
vias WNT
Genes prognósticos
Keywords
CancerAggressiveness
PCA
RFC
Machine learning
Interactome
RNA-seq
WNT pathways
Prognostic genes
Share