Por favor, use este identificador para citar o enlazar este ítem: https://ri.ufs.br/jspui/handle/riufs/23726
Tipo de Documento: Monografia
Título : Predição de doença cardíaca e identificação de fatores de risco com técnicas estatísticas e de Machine Learning
Autor : Santos Junior, Rivaldo Correia
Fecha de publicación : 15-sep-2025
Director(a): Xavier, Cleber Martins
Resumen: As doenças cardiovasculares (DCVs) configuram uma das principais causas de mortalidade mundial, representando um desafio silencioso para a saúde pública, inclusive no Brasil. Diante desse cenário, este trabalho tem como objetivo desenvolver um modelo preditivo capaz de prever a presença de doença cardíaca e identificar os principais fatores de risco associados, contribuindo para estratégias de prevenção e gestão de riscos. Para isso, a metodologia consistiu em explorar dados e ajustar modelos de classificação, utilizando técnicas estatísticas tradicionais e de aprendizado de máquina (Regressão Logística, Random Forest e K-Nearest Neighbors - KNN). Esses métodos foram avaliados por métricas como F1-score e AUC-ROC. Para a identificação dos fatores de risco, utilizou-se o V de Cramer para medir a associação entre as variáveis preditoras e a variável alvo. Os resultados evidenciaram a capacidade preditiva da regressão logística com seleção de variáveis, que apresentou o melhor equilíbrio entre as classes, com F1-score de 0,23 para a classe positiva e AUC-ROC de 0,7859. Os modelos Random Forest e KNN, embora eficientes na classe majoritária, demonstraram desempenho inferior na detecção de casos positivos. A análise dos fatores de risco, por sua vez, reforçou a associação da doença com idade, hipertensão, diabetes, colesterol alto, AVC e problema de sono. Em conclusão, o estudo demonstra a viabilidade de aplicar métodos de aprendizado de máquina na predição de doença cardíaca, apontando a importância da escolha de variáveis para aprimorar a capacidade preditiva dos modelos em cenários de desequilíbrio entre classes.
Resumen : Cardiovascular diseases (CVDs) are one of the leading causes of global mortality, representing a silent challenge to public health, including in Brazil. Given this scenario, this study’s objective is to develop a predictive model capable of forecasting the presence of heart disease and identifying the main associated risk factors, thereby contributing to prevention and risk management strategies. To achieve this, the methodology involved exploring data and fitting classification models using traditional statistical techniques and machine learning (Logistic Regression, Random Forest, and K-Nearest Neighbors - KNN). These methods were evaluated using metrics such as F1-score and AUC-ROC. For the identification of risk factors, Cramer’s V was employed to measure the association between predictor variables and the target variable. The results highlighted the predictive capability of logistic regression with variable selection, which showed the best balance between classes, with an F1-score of 0.23 for the positive class and an AUC-ROC of 0.7859. The Random Forest and KNN models, while efficient in the majority class, demonstrated inferior performance in detecting positive cases. The analysis of risk factors, in turn, reinforced the association of the disease with age, hypertension, diabetes, high cholesterol, stroke, and sleep problems. In conclusion, the study demonstrates the feasibility of applying machine learning methods in heart disease prediction, highlighting the importance of variable selection to improve the predictive capacity of models in scenarios of class imbalance.
Palabras clave : Estatística
Ensino superior (UFS)
Doença cardíaca
Fatores de risco
Aprendizado de máquina
Heart disease
Risk factors
Machine learning
Doenças cardiovasculares (DCVs)
Área CNPQ: CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Idioma : por
Institución: Universidade Federal de Sergipe (UFS)
Departamento: DECAT - Departamento de Estatística e Ciências Atuariais – Estatística – São Cristóvão - Presencial
Citación : Santos Junior, Rivaldo Correia. Predição de doença cardíaca e identificação de fatores de risco com técnicas estatísticas e de Machine Learning. São Cristóvão, 2025. Monografia (graduação em Estatística) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2025
URI : https://ri.ufs.br/jspui/handle/riufs/23726
Aparece en las colecciones: Estatística e Ciências Atuariais

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Rivaldo_Correia_Santos_Junior.pdf806,37 kBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.