Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/66541
USO DA APRENDIZAGEM DE MÁQUINA SUPERVISIONADA PARA PREDIÇÃO DE HIPERTENSÃO ARTERIAL (HTA) E DIABETES MELITTUS (DM) COM BASE EM DADOS SOCIODEMOGRÁFICOS E DE ESTILO DE VIDA
Araújo, Murilo Freire Oliveira | Date Issued:
2024
Alternative title
Use of supervised machine learning to predict Arterial Hypertension (HTN) and Diabetes Mellittus (DM) based on sociodemographic and lifestyle dataCo-advisor
Affilliation
Fundação Oswaldo Cruz. Instituto Gonçalo Moniz. Salvador, BA, Brasil.
Abstract in Portuguese
INTRODUÇÃO: As doenças crônicas não transmissíveis (DCNT) são um grande desafio global de saúde, representando uma proporção significativa de mortes prematuras e tendo impactos econômicos e sociais. Seus fatores de risco dividem-se em biológicos e comportamentais e, entre estes últimos, estima-se que quatro comportamentos – tabagismo, consumo excessivo de álcool, atividade física insuficiente e dieta inapropriada são responsáveis por mais da metade das mortes em países ocidentais. Por meio do uso de técnicas de aprendizagem de máquina é possível criar um software preditor que, com base em informações sociodemográficas e de estilo de vida, possa estimar com confiança o risco de hipertensão e diabetes, destacando a importância das mudanças no estilo de vida para a saúde. OBJETIVO: Desenvolver uma ferramenta computacional utilizando indicadores relacionados aos comportamentos de estilo de vida para predizer o surgimento do diabetes e hipertensão em participantes do Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil). MATERIAL E MÉTODOS: Os dados foram obtidos a partir do Estudo Longitudinal de Saúde do Adulto (ELSA-Brasil), importados no ambiente Python e tratados. Em seguida seguiu-se a etapa de análise estatística dos dados. O próximo passo foi executar o método de validação cruzada usando Forward Feature Selection para obtenção do score prévio sobre os dados. Após isto, os dados foram submetidos aos algoritmos de aprendizagem de máquina, em que se obteve resultados com e sem ajustes de hiperparâmetros. Por último, os modelos com melhor performance foram exportados para o desenvolvimento do software preditor que foi construído em Python utilizando a biblioteca PySimpleGUI RESULTADOS: Da população do estudo, 35,9% apresentaram hipertensão arterial e 16,0% diabetes. A média de acurácia para predição de hipertensão arterial foi 0,69 e 0,84 para diabetes. Quanto à importância das características, os principais preditores para hipertensão arterial foram sexo, faixa etária, raça/cor e consumo excessivo de álcool e para diabetes foram sexo, faixa etária e prática de atividade física. O somatório de estilo de vida apresentou participação relevante na predição. Vários modelos apresentaram resultados semelhantes, selecionou-se os modelos utilizando Random Forest tanto para hipertensão quanto para diabetes. Os modelos foram exportados e utilizados para a construção do software preditor. CONCLUSÃO: A aprendizagem de máquina se mostra eficaz na previsão de doenças como hipertensão e diabetes com base em dados sociodemográficas e de estilo de vida. Este estudo destaca o potencial dos modelos de aprendizado de máquina para compreender e apoiar ações em saúde para o enfrentamento destas doenças
Abstract
INTRODUCTION: Non-communicable chronic diseases (NCDs) are a major global health challenge, representing a significant proportion of premature deaths and having economic and social impacts. Their risk factors are divided into biological and behavioral, and among the latter, it is estimated that four behaviors - smoking, excessive alcohol consumption, insufficient physical activity, and inappropriate diet - are responsible for more than half of the deaths in Western countries. Using data from the Brazilian Longitudinal Study of Adult Health (ELSA-Brasil) and machine learning techniques, it is possible to create a predictive software that, based on sociodemographic and lifestyle information, can confidently estimate the risk of hypertension and diabetes, highlighting the importance of lifestyle changes for health. OBJECTIVE: To develop a computational tool using indicators related to lifestyle behaviors to predict the emergence of diabetes and hypertension in participants of the Brazilian Longitudinal Study of Adult Health (ELSA-Brasil). MATERIALS AND METHODS: Initially, data were obtained from ELSA-Brasil, imported into the Python environment, and processed. This was followed by the statistical analysis of the data. The next step was to perform the cross-validation method using Forward Feature Selection to obtain a preliminary score on the data. After this, the data were subjected to machine learning algorithms, where results were obtained with and without hyperparameter adjustments. Finally, the best-performing models were exported for the development of the predictive software, which was built in Python using the PySimpleGUI library RESULTS: Of the study population, 35.9% had arterial hypertension and 16% diabetes. The average accuracy for predicting arterial hypertension was 0.69 and 0.84 for diabetes. Regarding the importance of characteristics, the main predictors for arterial hypertension were sex, age group, race/color, and excessive alcohol consumption, and for diabetes were sex, age group, and physical activity practice. The sum of lifestyle had a relevant participation in the prediction. Several models showed similar results, and the models using Random Forest were selected for both hypertension and diabetes. The models were exported and used for the construction of the predictive software. CONCLUSION: Machine learning proves effective in predicting diseases such as hypertension and diabetes based on sociodemographic and lifestyle data. This study highlights the potential of machine learning models to understand and support health actions in combating these diseases
Share