Use este identificador para citar ou linkar para este item: https://ri.ufs.br/jspui/handle/riufs/24781
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.authorAlmeida, Samuel Santana de-
dc.date.accessioned2026-03-13T19:20:32Z-
dc.date.available2026-03-13T19:20:32Z-
dc.date.issued2026-01-28-
dc.identifier.citationALMEIDA, Samuel Santana de. Análise exploratória e prática da aplicação de NER em notícias sobre saúde. 2026. 67f. Dissertação (Mestrado em Ciência da computação) — Universidade Federal de Sergipe, São Cristóvão, 2026.pt_BR
dc.identifier.urihttps://ri.ufs.br/jspui/handle/riufs/24781-
dc.description.abstractContext: Context: The public sector, specifically regarding audits within the Ministry of Health and the Unified Health System (SUS), faces operational bottlenecks due to manual data analysis processes. This inefficiency leads to delays and high costs, hindering the fight against corruption and the assurance of the universal right to health. Objectives: This study aimed to characterize the state-of-the-art in Named Entity Recognition (NER) architectures applied to healthcare and identify the most effective approach for entity extraction and text classification in health news. The focus is on optimizing SUS auditing by comparing the performance of BERT, BERT-CRF, and ModBERTBr models. Methodology: The research employed a Systematic Literature Mapping (SLM), analyzing 310 studies from an initial pool of 5,863, followed by a controlled experiment. The experiment utilized a Natural Language Processing (NLP) pipeline applied to a corpus of 800 health news articles for the training and evaluation of NER and classification tasks. Results: The SLM revealed the dominance of Transformer-based Deep Learning models, with BERT being the most frequent technique (215 studies). In the practical NER experiment, BERT-CRF excelled with the highest recall (0.880), precision (0.855), and F1-score (0.860), while BERT achieved the highest accuracy (0.900). In the classification task, BERT outperformed ModBERTBr across all metrics. Regarding efficiency, BERT was superior in execution time for NER (8min 10s), whereas BERT-CRF was faster in classification (7min 10s). Conclusion: Model effectiveness is task-dependent: BERT-CRF is superior for precise detection in complex sequences (such as audit reports), while BERT is better suited for the rapid screening of large document volumes. It is concluded that the implementation of a hybrid system has high potential to optimize the selection of auditable content in SUS, strengthening integrity and investigation within public processes.eng
dc.languageporpt_BR
dc.subjectProcessamento de linguagem naturalpor
dc.subjectComputaçãopor
dc.subjectAuditoria internapor
dc.subjectSistema Único de Saúde (SUS)por
dc.subjectBrasilpor
dc.subjectRedes neuraispor
dc.subjectReconhecimento de entidades nomeadaspor
dc.subjectAuditoria do SUSpor
dc.subjectBERTpor
dc.subjectExperimentaçãopor
dc.subjectNatural language processingeng
dc.subjectNamed entity recognitioneng
dc.subjectSUS auditingeng
dc.subjectExperimentationeng
dc.titleAnálise exploratória e prática da aplicação de NER em notícias sobre saúdept_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Colaço Júnior, Methanias-
dc.description.resumoContexto: O setor público, especificamente no âmbito das auditorias do Ministério da Saúde e do Sistema Único de Saúde (SUS), enfrenta gargalos operacionais decorrentes de processos manuais de análise de dados. Essa ineficiência resulta em morosidade e custos elevados, comprometendo o combate à corrupção e a garantia do direito universal à saúde. Objetivos: Este estudo buscou caracterizar o estado da arte das arquiteturas de Named Entity Recognition (NER) aplicadas à saúde e identificar a abordagem mais eficaz para a extração de entidades e classificação de textos em notícias do setor. O foco recai sobre a otimização da auditoria do SUS, comparando o desempenho dos modelos BERT, BERT-CRF e ModBERTBr. Metodologia: A pesquisa empregou um Mapeamento Sistemático da Literatura (MSL), com a análise de 310 estudos de um universo inicial de 5.863, seguido por um experimento controlado. O experimento utilizou um pipeline de Processamento de Linguagem Natural (PLN) aplicado a um corpus de 800 notícias de saúde para o treinamento e avaliação das tarefas de NER e classificação. Resultados: O MSL revelou a hegemonia de modelos de Deep Learning baseados em Transformers, sendo o BERT a técnica mais frequente (215 estudos). No experimento prático de NER, o BERT-CRF destacou-se com os melhores índices de recall (0,880), precisão (0,855) e F1-score (0,860), enquanto o BERT obteve a maior acurácia (0,900). Na tarefa de classificação, o BERT superou o ModBERTBr em todas as métricas. Quanto à eficiência, o BERT foi superior em tempo de execução para NER (8min 10s), ao passo que o BERT-CRF foi mais ágil na classificação (7min 10s). Conclusão: A eficácia do modelo é contingente à tarefa: o BERT-CRF é superior para a detecção precisa em sequências complexas (como relatórios de auditoria), enquanto o BERT é mais indicado para a triagem célere de grandes volumes documentais. Conclui-se que a implementação de um sistema híbrido possui elevado potencial para otimizar a seleção de conteúdos auditáveis no SUS, fortalecendo a integridade e a investigação nos processos públicos.pt_BR
dc.publisher.programPós-Graduação em Ciência da Computaçãopt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.publisher.initialsUniversidade Federal de Sergipe (UFS)pt_BR
dc.contributor.advisor-co1Silva Fontes, Raphael-
dc.description.localSão Cristóvãopt_BR
Aparece nas coleções:Mestrado em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
SAMUEL_SANTANA_ALMEIDA.pdf2,38 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.