Análise exploratória e prática da aplicação de NER em notícias sobre saúde

Almeida, Samuel Santana de

Use este identificador para citar ou linkar para este item: https://ri.ufs.br/jspui/handle/riufs/24781

Tipo de Documento:	Dissertação
Título:	Análise exploratória e prática da aplicação de NER em notícias sobre saúde
Autor(es):	Almeida, Samuel Santana de
Data do documento:	28-Jan-2026
Orientador:	Colaço Júnior, Methanias
Coorientador:	Silva Fontes, Raphael
Resumo:	Contexto: O setor público, especificamente no âmbito das auditorias do Ministério da Saúde e do Sistema Único de Saúde (SUS), enfrenta gargalos operacionais decorrentes de processos manuais de análise de dados. Essa ineficiência resulta em morosidade e custos elevados, comprometendo o combate à corrupção e a garantia do direito universal à saúde. Objetivos: Este estudo buscou caracterizar o estado da arte das arquiteturas de Named Entity Recognition (NER) aplicadas à saúde e identificar a abordagem mais eficaz para a extração de entidades e classificação de textos em notícias do setor. O foco recai sobre a otimização da auditoria do SUS, comparando o desempenho dos modelos BERT, BERT-CRF e ModBERTBr. Metodologia: A pesquisa empregou um Mapeamento Sistemático da Literatura (MSL), com a análise de 310 estudos de um universo inicial de 5.863, seguido por um experimento controlado. O experimento utilizou um pipeline de Processamento de Linguagem Natural (PLN) aplicado a um corpus de 800 notícias de saúde para o treinamento e avaliação das tarefas de NER e classificação. Resultados: O MSL revelou a hegemonia de modelos de Deep Learning baseados em Transformers, sendo o BERT a técnica mais frequente (215 estudos). No experimento prático de NER, o BERT-CRF destacou-se com os melhores índices de recall (0,880), precisão (0,855) e F1-score (0,860), enquanto o BERT obteve a maior acurácia (0,900). Na tarefa de classificação, o BERT superou o ModBERTBr em todas as métricas. Quanto à eficiência, o BERT foi superior em tempo de execução para NER (8min 10s), ao passo que o BERT-CRF foi mais ágil na classificação (7min 10s). Conclusão: A eficácia do modelo é contingente à tarefa: o BERT-CRF é superior para a detecção precisa em sequências complexas (como relatórios de auditoria), enquanto o BERT é mais indicado para a triagem célere de grandes volumes documentais. Conclui-se que a implementação de um sistema híbrido possui elevado potencial para otimizar a seleção de conteúdos auditáveis no SUS, fortalecendo a integridade e a investigação nos processos públicos.
Abstract:	Context: Context: The public sector, specifically regarding audits within the Ministry of Health and the Unified Health System (SUS), faces operational bottlenecks due to manual data analysis processes. This inefficiency leads to delays and high costs, hindering the fight against corruption and the assurance of the universal right to health. Objectives: This study aimed to characterize the state-of-the-art in Named Entity Recognition (NER) architectures applied to healthcare and identify the most effective approach for entity extraction and text classification in health news. The focus is on optimizing SUS auditing by comparing the performance of BERT, BERT-CRF, and ModBERTBr models. Methodology: The research employed a Systematic Literature Mapping (SLM), analyzing 310 studies from an initial pool of 5,863, followed by a controlled experiment. The experiment utilized a Natural Language Processing (NLP) pipeline applied to a corpus of 800 health news articles for the training and evaluation of NER and classification tasks. Results: The SLM revealed the dominance of Transformer-based Deep Learning models, with BERT being the most frequent technique (215 studies). In the practical NER experiment, BERT-CRF excelled with the highest recall (0.880), precision (0.855), and F1-score (0.860), while BERT achieved the highest accuracy (0.900). In the classification task, BERT outperformed ModBERTBr across all metrics. Regarding efficiency, BERT was superior in execution time for NER (8min 10s), whereas BERT-CRF was faster in classification (7min 10s). Conclusion: Model effectiveness is task-dependent: BERT-CRF is superior for precise detection in complex sequences (such as audit reports), while BERT is better suited for the rapid screening of large document volumes. It is concluded that the implementation of a hybrid system has high potential to optimize the selection of auditable content in SUS, strengthening integrity and investigation within public processes.
Palavras-chave:	Processamento de linguagem natural Computação Auditoria interna Sistema Único de Saúde (SUS) Brasil Redes neurais Reconhecimento de entidades nomeadas Auditoria do SUS BERT Experimentação Natural language processing Named entity recognition SUS auditing Experimentation
área CNPQ:	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
Sigla da Instituição:	Universidade Federal de Sergipe (UFS)
Programa de Pós-graduação:	Pós-Graduação em Ciência da Computação
Citação:	ALMEIDA, Samuel Santana de. Análise exploratória e prática da aplicação de NER em notícias sobre saúde. 2026. 67f. Dissertação (Mestrado em Ciência da computação) — Universidade Federal de Sergipe, São Cristóvão, 2026.
URI:	https://ri.ufs.br/jspui/handle/riufs/24781
Aparece nas coleções:	Mestrado em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
SAMUEL_SANTANA_ALMEIDA.pdf		2,38 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas