Análise exploratória e prática da aplicação de NER em notícias sobre saúde

Almeida, Samuel Santana de

Use este identificador para citar ou linkar para este item: https://ri.ufs.br/jspui/handle/riufs/24781

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.author	Almeida, Samuel Santana de	-
dc.date.accessioned	2026-03-13T19:20:32Z	-
dc.date.available	2026-03-13T19:20:32Z	-
dc.date.issued	2026-01-28	-
dc.identifier.citation	ALMEIDA, Samuel Santana de. Análise exploratória e prática da aplicação de NER em notícias sobre saúde. 2026. 67f. Dissertação (Mestrado em Ciência da computação) — Universidade Federal de Sergipe, São Cristóvão, 2026.	pt_BR
dc.identifier.uri	https://ri.ufs.br/jspui/handle/riufs/24781	-
dc.description.abstract	Context: Context: The public sector, specifically regarding audits within the Ministry of Health and the Unified Health System (SUS), faces operational bottlenecks due to manual data analysis processes. This inefficiency leads to delays and high costs, hindering the fight against corruption and the assurance of the universal right to health. Objectives: This study aimed to characterize the state-of-the-art in Named Entity Recognition (NER) architectures applied to healthcare and identify the most effective approach for entity extraction and text classification in health news. The focus is on optimizing SUS auditing by comparing the performance of BERT, BERT-CRF, and ModBERTBr models. Methodology: The research employed a Systematic Literature Mapping (SLM), analyzing 310 studies from an initial pool of 5,863, followed by a controlled experiment. The experiment utilized a Natural Language Processing (NLP) pipeline applied to a corpus of 800 health news articles for the training and evaluation of NER and classification tasks. Results: The SLM revealed the dominance of Transformer-based Deep Learning models, with BERT being the most frequent technique (215 studies). In the practical NER experiment, BERT-CRF excelled with the highest recall (0.880), precision (0.855), and F1-score (0.860), while BERT achieved the highest accuracy (0.900). In the classification task, BERT outperformed ModBERTBr across all metrics. Regarding efficiency, BERT was superior in execution time for NER (8min 10s), whereas BERT-CRF was faster in classification (7min 10s). Conclusion: Model effectiveness is task-dependent: BERT-CRF is superior for precise detection in complex sequences (such as audit reports), while BERT is better suited for the rapid screening of large document volumes. It is concluded that the implementation of a hybrid system has high potential to optimize the selection of auditable content in SUS, strengthening integrity and investigation within public processes.	eng
dc.language	por	pt_BR
dc.subject	Processamento de linguagem natural	por
dc.subject	Computação	por
dc.subject	Auditoria interna	por
dc.subject	Sistema Único de Saúde (SUS)	por
dc.subject	Brasil	por
dc.subject	Redes neurais	por
dc.subject	Reconhecimento de entidades nomeadas	por
dc.subject	Auditoria do SUS	por
dc.subject	BERT	por
dc.subject	Experimentação	por
dc.subject	Natural language processing	eng
dc.subject	Named entity recognition	eng
dc.subject	SUS auditing	eng
dc.subject	Experimentation	eng
dc.title	Análise exploratória e prática da aplicação de NER em notícias sobre saúde	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Colaço Júnior, Methanias	-
dc.description.resumo	Contexto: O setor público, especificamente no âmbito das auditorias do Ministério da Saúde e do Sistema Único de Saúde (SUS), enfrenta gargalos operacionais decorrentes de processos manuais de análise de dados. Essa ineficiência resulta em morosidade e custos elevados, comprometendo o combate à corrupção e a garantia do direito universal à saúde. Objetivos: Este estudo buscou caracterizar o estado da arte das arquiteturas de Named Entity Recognition (NER) aplicadas à saúde e identificar a abordagem mais eficaz para a extração de entidades e classificação de textos em notícias do setor. O foco recai sobre a otimização da auditoria do SUS, comparando o desempenho dos modelos BERT, BERT-CRF e ModBERTBr. Metodologia: A pesquisa empregou um Mapeamento Sistemático da Literatura (MSL), com a análise de 310 estudos de um universo inicial de 5.863, seguido por um experimento controlado. O experimento utilizou um pipeline de Processamento de Linguagem Natural (PLN) aplicado a um corpus de 800 notícias de saúde para o treinamento e avaliação das tarefas de NER e classificação. Resultados: O MSL revelou a hegemonia de modelos de Deep Learning baseados em Transformers, sendo o BERT a técnica mais frequente (215 estudos). No experimento prático de NER, o BERT-CRF destacou-se com os melhores índices de recall (0,880), precisão (0,855) e F1-score (0,860), enquanto o BERT obteve a maior acurácia (0,900). Na tarefa de classificação, o BERT superou o ModBERTBr em todas as métricas. Quanto à eficiência, o BERT foi superior em tempo de execução para NER (8min 10s), ao passo que o BERT-CRF foi mais ágil na classificação (7min 10s). Conclusão: A eficácia do modelo é contingente à tarefa: o BERT-CRF é superior para a detecção precisa em sequências complexas (como relatórios de auditoria), enquanto o BERT é mais indicado para a triagem célere de grandes volumes documentais. Conclui-se que a implementação de um sistema híbrido possui elevado potencial para otimizar a seleção de conteúdos auditáveis no SUS, fortalecendo a integridade e a investigação nos processos públicos.	pt_BR
dc.publisher.program	Pós-Graduação em Ciência da Computação	pt_BR
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.publisher.initials	Universidade Federal de Sergipe (UFS)	pt_BR
dc.contributor.advisor-co1	Silva Fontes, Raphael	-
dc.description.local	São Cristóvão	pt_BR
Aparece nas coleções:	Mestrado em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
SAMUEL_SANTANA_ALMEIDA.pdf		2,38 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas