Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/69450
PREDIÇÃO DE ÁREAS DE RISCO E FATORES ASSOCIADOS À DENGUE NO ESTADO DO PIAUÍ BASEADO EM MÉTODOS DE APRENDIZAGEM DE MÁQUINA
Aprendizagem de Máquina
Análise Espacial
Epidemiologia
Modelo Preditivo
história
Piauí
Aprendizado de Máquina
Epidemiologia
Análise Espacial
Determinantes Sociais da Saúde
Estudos Ecológicos
Dengue
Análise de Regressão
Machine Learning
Spatial Analysis
Epidemiology
Predictive Model
Epidemiologia
Sousa, Ramila de Alencar | Date Issued:
2023
Alternative title
Prediction of risk areas and factors associated with dengue in the State of Piauí based on Machine Learning methodsAuthor
Advisor
Co-advisor
Affilliation
Fundação Oswaldo Cruz. Escola Nacional de Saúde Pública Sergio Arouca. Rio de Janeiro, RJ, Brasil.
Abstract in Portuguese
Aproximadamente 3,9 bilhões de pessoas em todo mundo, segundo a OMS, estejam sob risco de ter dengue, causando entre 100 e 400 milhões de infecções por ano e sendo endêmica em mais de 100 países. Além da importância epidemiológica, os fatores associados à disseminação e ampliação dos casos de dengue pelo mundo são complexos e não satisfatoriamente estabelecidos. Contudo, acredita-se que questões climáticas, demográficas, ambientais e sociais estejam envolvidas na dinâmica de transmissão dessa arbovirose. Este trabalho teve como objetivo predizer áreas sob maior risco e fatores associados à dengue no Estado do Piauí, na região Nordeste do Brasil, no período de 2014 a 2019, baseado em métodos de aprendizagem de máquina (Machine Learning) e em epidemiologia espacial. Foram utilizados os casos de dengue por município do Piauí para estimar as incidências, bruta e suavizadas, por meio de taxas bayesianas global e local, e para modelagem preditiva, além das taxas de incidência, foi utilizado estatísticas geoespaciais climáticas, ambientais e demográficas dos municípios extraídas do data paper de Abdalla et al. (2022). O processo de modelagem envolveu desde a coleta e tratamento de dados da ocorrência da doença nos municípios até a análise dos modelos gerados e dos atributos associados A tarefa de aprendizagem supervisionada foi do tipo classificação com dois métodos baseados em combinações (ensemble) de árvores de decisão, o Random Forest e o XGBoost. Com o processo de modelagem foram gerados quatro modelos preditivos de dengue, duas com Random Forest para taxa global e local, e duas com XGBoost para taxa global e local, ambos com boa acurácia e baixa taxa de erro. O modelo final selecionado foi o modelo XGBoost com taxa de incidência global, que apresentou 85% de acurácia. A partir desse modelo foram discriminados 20 atributos de maior importância, descrevendo o grau de impacto em cada uma das diferentes classes de incidências estudadas. Os resultados demonstram que utilização de aprendizagem de máquina em Saúde Pública é uma nova e promissora área do conhecimento que pode auxiliar na tomada de decisões e no controle de doenças, pois apresenta grande potencial na criação de modelos preditivos, bem como, bom desempenho ao lidar com problemas complexos, como o da dengue.
Abstract
According to the WHO, approximately 3.9 billion people worldwide are at risk of dengue, causing between 100 and 400 million infections annually and endemic in more than 100 countries. In addition to the epidemiological importance, the factors associated with the spread and expansion of dengue cases worldwide are complex and not satisfactorily established. However, studies suggest that climatic, demographic, environmental, and social issues are involved in the transmission dynamics of this arbovirus. This work aimed to predict areas at higher risk and associated factors for dengue in the State of Piauí, in the Northeast region of Brazil, from 2014 to 2019, based on machine learning methods and spatial epidemiology. To estimate the incidences, crude and smoothed, using global and local Bayesian rates, dengue cases, and population per municipality in Piauí were used. Incidence rates were used for predictive modeling along with geospatial climate and environmental and demographic statistics of municipalities extracted from the paper by Abdalla et al. (2022) The modeling process involved everything from collecting and processing data on the occurrence of the disease in the municipalities to analyzing the generated models and associated attributes. The supervised learning task was of the classification type with two methods based on combinations (ensemble) of decision trees, Random Forest and XGBoost. With the modeling process, four predictive models of dengue were generated, two with Random Forest for global and local rates and two with XGBoost for global and local rates, both with good accuracy and low error rate. The final model selected was the XGBoost model with a global incidence rate, which showed 85% accuracy. Based on this model, the 20 most important attributes were discriminated, describing the degree of impact on each class of incidence studied. The use of machine learning in Public Health is a new and promising area of, knowledge that can help in decision-making and disease control, as it has great potential in creating predictive models and good performance in dealing with complex problems, such as dengue fever.
Keywords in Portuguese
DengueAprendizagem de Máquina
Análise Espacial
Epidemiologia
Modelo Preditivo
DeCS
Denguehistória
Piauí
Aprendizado de Máquina
Epidemiologia
Análise Espacial
Determinantes Sociais da Saúde
Estudos Ecológicos
Dengue
Análise de Regressão
Machine Learning
Spatial Analysis
Epidemiology
Predictive Model
Epidemiologia
Share