Please use this identifier to cite or link to this item: https://ri.ufs.br/jspui/handle/riufs/23726
Document Type: Monografia
Title: Predição de doença cardíaca e identificação de fatores de risco com técnicas estatísticas e de Machine Learning
Authors: Santos Junior, Rivaldo Correia
Issue Date: 15-Sep-2025
Advisor: Xavier, Cleber Martins
Resumo : As doenças cardiovasculares (DCVs) configuram uma das principais causas de mortalidade mundial, representando um desafio silencioso para a saúde pública, inclusive no Brasil. Diante desse cenário, este trabalho tem como objetivo desenvolver um modelo preditivo capaz de prever a presença de doença cardíaca e identificar os principais fatores de risco associados, contribuindo para estratégias de prevenção e gestão de riscos. Para isso, a metodologia consistiu em explorar dados e ajustar modelos de classificação, utilizando técnicas estatísticas tradicionais e de aprendizado de máquina (Regressão Logística, Random Forest e K-Nearest Neighbors - KNN). Esses métodos foram avaliados por métricas como F1-score e AUC-ROC. Para a identificação dos fatores de risco, utilizou-se o V de Cramer para medir a associação entre as variáveis preditoras e a variável alvo. Os resultados evidenciaram a capacidade preditiva da regressão logística com seleção de variáveis, que apresentou o melhor equilíbrio entre as classes, com F1-score de 0,23 para a classe positiva e AUC-ROC de 0,7859. Os modelos Random Forest e KNN, embora eficientes na classe majoritária, demonstraram desempenho inferior na detecção de casos positivos. A análise dos fatores de risco, por sua vez, reforçou a associação da doença com idade, hipertensão, diabetes, colesterol alto, AVC e problema de sono. Em conclusão, o estudo demonstra a viabilidade de aplicar métodos de aprendizado de máquina na predição de doença cardíaca, apontando a importância da escolha de variáveis para aprimorar a capacidade preditiva dos modelos em cenários de desequilíbrio entre classes.
Abstract: Cardiovascular diseases (CVDs) are one of the leading causes of global mortality, representing a silent challenge to public health, including in Brazil. Given this scenario, this study’s objective is to develop a predictive model capable of forecasting the presence of heart disease and identifying the main associated risk factors, thereby contributing to prevention and risk management strategies. To achieve this, the methodology involved exploring data and fitting classification models using traditional statistical techniques and machine learning (Logistic Regression, Random Forest, and K-Nearest Neighbors - KNN). These methods were evaluated using metrics such as F1-score and AUC-ROC. For the identification of risk factors, Cramer’s V was employed to measure the association between predictor variables and the target variable. The results highlighted the predictive capability of logistic regression with variable selection, which showed the best balance between classes, with an F1-score of 0.23 for the positive class and an AUC-ROC of 0.7859. The Random Forest and KNN models, while efficient in the majority class, demonstrated inferior performance in detecting positive cases. The analysis of risk factors, in turn, reinforced the association of the disease with age, hypertension, diabetes, high cholesterol, stroke, and sleep problems. In conclusion, the study demonstrates the feasibility of applying machine learning methods in heart disease prediction, highlighting the importance of variable selection to improve the predictive capacity of models in scenarios of class imbalance.
Keywords: Estatística
Ensino superior (UFS)
Doença cardíaca
Fatores de risco
Aprendizado de máquina
Heart disease
Risk factors
Machine learning
Doenças cardiovasculares (DCVs)
Subject CNPQ: CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Language: por
Institution: Universidade Federal de Sergipe (UFS)
Department: DECAT - Departamento de Estatística e Ciências Atuariais – Estatística – São Cristóvão - Presencial
Citation: Santos Junior, Rivaldo Correia. Predição de doença cardíaca e identificação de fatores de risco com técnicas estatísticas e de Machine Learning. São Cristóvão, 2025. Monografia (graduação em Estatística) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2025
URI: https://ri.ufs.br/jspui/handle/riufs/23726
Appears in Collections:Estatística e Ciências Atuariais

Files in This Item:
File Description SizeFormat 
Rivaldo_Correia_Santos_Junior.pdf806,37 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.