Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/64102
Type
Papers presented at eventsCopyright
Open access
Sustainable Development Goals
03 Saúde e Bem-EstarCollections
Metadata
Show full item record
DATA SCIENCE PLATFORM APPLIED TO HEALTH IN CONTRIBUTION TO THE BRAZILIAN UNIFIED HEALTH SYSTEM
Author
Pedroso, Marcel
Salles, Rebecca
Saldanha, Raphael
Almeida, Vinicius Kreischer de
Souto, Gabriel
Paixão, Balthazar
Cruz, Sérgio Ricardo de Borba
Cardoso, Carlos
Ribeiro, Victor
Gritz, Raquel
Bonifácio, Carmen
Miloski, Matheus
Sousa, Carlos Augusto de
Alencar, Gizelton Pereira
Alves, Ariane
Neto, Nelson Niero
Sabbadini, Letícia
Ogasawara, Eduardo
Barcellos, Christovam
Porto, Fabio
Carraro, Lucas Zinato
Lima, Jefferson
Salles, Rebecca
Saldanha, Raphael
Almeida, Vinicius Kreischer de
Souto, Gabriel
Paixão, Balthazar
Cruz, Sérgio Ricardo de Borba
Cardoso, Carlos
Ribeiro, Victor
Gritz, Raquel
Bonifácio, Carmen
Miloski, Matheus
Sousa, Carlos Augusto de
Alencar, Gizelton Pereira
Alves, Ariane
Neto, Nelson Niero
Sabbadini, Letícia
Ogasawara, Eduardo
Barcellos, Christovam
Porto, Fabio
Carraro, Lucas Zinato
Lima, Jefferson
Affilliation
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
National Institute for Research in Digital Science and Technology, France,
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Universidade Federal do Rio de Janeiro. Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa em Engenharia. Programa de Engenharia de Sistemas e Computação. Rio de Janeiro, RJ, Brasil.
Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Universidade do Estado do Rio de Janeiro. Faculdade de Ciências Médicas da UERJ. Departamento de Tecnologias da Informação e Educação em Saúde. Rio de Janeiro, RJ, Brasil.
Universidade de São Paulo. Escola de Saúde Pública. São Paulo, SP, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Rio de Janeiro, RJ, Brasil.
Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
National Institute for Research in Digital Science and Technology, France,
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Universidade Federal do Rio de Janeiro. Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa em Engenharia. Programa de Engenharia de Sistemas e Computação. Rio de Janeiro, RJ, Brasil.
Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil / Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Universidade do Estado do Rio de Janeiro. Faculdade de Ciências Médicas da UERJ. Departamento de Tecnologias da Informação e Educação em Saúde. Rio de Janeiro, RJ, Brasil.
Universidade de São Paulo. Escola de Saúde Pública. São Paulo, SP, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Centro Federal de Educação Tecnológica. Rio de Janeiro, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Rio de Janeiro, RJ, Brasil.
Laboratório Nacional de Computação Científica. Petrópolis, RJ, Brasil.
Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Laboratório de Informação em Saúde. Data Science Platform applied to Health. Rio de Janeiro, RJ, Brasil.
Abstract
The Data Science Platform Applied to Health (PCDaS) is a research and technological development project that aims to develop and apply novel data analysis methods to public health data. It fills a technological gap between the variety of data sources available in legacy and unstandardized formats and the current needs and possibilities of Data Science applications to consume and explore data for the benefit of the Brazilian Health System. PCDaS provides democratic access to health-related datasets and information by requiring fewer technological abilities from its users while maintaining a continuously updated stack of technologies. As a data ecosystem, our primary goal is to provide secure and remote access to health data, technological tools, and a robust infrastructure provided by our platform to process and analyze a large amount of data that generally demand computational power often unavailable to researchers. The infrastructure consists of multi-region on-premise and cloud servers prepared to deal with the heavy analysis of Big Data from anywhere from multiple users simultaneously. Providing secure and remote access to health databases, whether in their original form or processed, is a daily breakthrough for a public health researcher. Knowing that there is a place where they can access integrated data in a standard format makes the research process much more manageable. To ensure quality, our data engineering and governance teams process these data sources following a gold standard based on cross-tables provided by the Health Ministry (the TabNET system) and decoding the original variables into meaningful names provided by the sources. It is very relevant to emphasize the comprehensive documentation of metadata, attributes, and the ETL (Extract, Transform, Load) process for databases. Every part of these steps is described in detail on the PCDaS website, ensuring the comprehension and reproducibility of the process. These features ensure that PCDaS users can effectively leverage the platform’s resources and capabilities, enabling them to conduct research, perform data analysis, and collaborate within a secure and supportive environment to contribute to the Brazilian Health System.
Share