Use este identificador para citar ou linkar para este item: https://ri.ufs.br/jspui/handle/riufs/13484
Tipo de Documento: Monografia
Título: Assistência bibliográfica durante a escrita de textos científicos : uma abordagem com modelos de linguagem pré-treinados
Autor(es): Santana, Demetrius Silva de
Data do documento: 19-Fev-2020
Orientador: Macedo, Hendrik Teixeira
Coorientador: Santos, Flávio Arthur Oliveira
Resumo: A produção científica inclui a geração de artefatos textuais, como artigos científicos e projetos de pesquisa. A escrita científica, por sua vez, apresenta desafios próprios. Um deles é lidar com a sobrecarga de informação na literatura, que dificulta a contextualização de um novo documento com as informações mais relevantes da área de pesquisa. Diante desse desafio, neste trabalho são investigadas formas de se representar vetorialmente sentenças e parágrafos de textos científicos, com o propósito de recomendar conteúdo relevante durante sua escrita. Por varredura automatizada das bases de dados das editoras Springer e Elsevier, foi construído um espelho para acesso local de artigos científicos, do qual foi possível ser extraído corpus com 40 mil artigos de periódicos de Ciência da Computação. Modelos de linguagem pré-treinados foram usados para se obter vetorizações de palavras ou fragmentos de palavras para uma amostra de 1605 artigos. A partir dessas representações, métodos de agregação para gerar representações de sentenças e de parágrafos foram investigados. Estratégias de vetorização para os elementos textuais foram avaliadas em dois aspectos. Primeiramente, na capacidade de refletir a agregação de parágrafos dentro das seções dos artigos já publicados. Em seguida, foram usadas fixadas para treinar uma rede recorrente de longa memória de curto prazo bidirecional (BiLSTM) na tarefa de determinar se um fragmento de texto e um resumo pertenciam a um mesmo artigo científico. Nas duas situações, atingiu melhor desempenho a vetorização com representações de codificador bidirecional por transformadores (BERT), na variante pré-treinada em corpus de textos científicos (SciBERT). Também nos dois cenários, a representação de sentenças pela média dos vetores pré-treinados, ponderada a partir da frequência do elemento, mostrou desempenho inferior quando comparada à média simples dos vetores após remoção das palavras de parada (stopwords). A representação de parágrafos a partir da codificação de uma sequência de sentenças por uma BiLSTM se mostrou superior quando comparada à simples média dos vetores de sentenças e, quando aplicada à introdução de um artigo científico no subconjunto de teste, foi capaz de retornar o resumo do próprio artigo dentre os 5% mais prováveis, em média. Uma demonstração qualitativa da recomendação de conteúdo que integra o resultado das duas abordagens é apresentada. A partir das estratégias investigadas, a assistência bibliográfica automatizada durante a produção de textos científicos se mostrou viável, podendo ser melhorada com a otimização de redes com BiLSTMs hierárquicas.
Abstract: Scientific output includes the production of textual artifacts, as scientific papers and research projects. Scientific writing, in turn, presents its own challenges. One of them is to face information overload in literature, which hinders contextualization of a new document with the most relevant information of its research area. In face of this difficulty, in this work we will investigate ways of embedding sentences and paragraphs of scientific texts, with the purpose of content recomendation along scientific writing. Through automated scanning of databases of publishers Springer and Elsevier, a local mirror was built for access of research papers, from which it was possible to obtain a corpus with 40 thousand papers from Computer Science journals. Pre-trained language models were used to obtain embedding for words or wordpieces for a sample of 1605 papers. Using these representations, aggregation methods for generating embeddings for sentences and paragraphs were investigated. Embedding strategies for these textual elements were evaluated in two aspects. Firstly, in their capacity of reflecting the aggregation of paragraphs within sections of already published papers. Secondly, they were used frozen to train a bidirectional long short-term memory (BiLSTM) neural network for the task of classifying wether a text fragment and an abstract belonged to the same paper. In both situations, a better performance was obtained with embeddings from bidirectional encoder representations from Transformers (BERT), specifically with a version pre-trained on a scientific corpus (SciBERT). Also in both circumstances, embeddings of sentences obtained by taking the mean of pre-trained word embeddings, weighted considering the word frequency, showed worse performance when compared to the mean of vectors after removing stopwords. Paragraph embeddings using the encoding of a sequence of sentences with a BiLSTM presented superior performance when compared to simple mean of sentence vectors and, when applied to the introduction of a scientific paper in test set, was able to return its own original paper within the 5% most likely ones, on average. A qualitative demonstration of content recommendation which integrates the result of both analyses is presented. Considering the studied strategies, automated bibligraphical assistance during production of scientific texts was feasible, with potential for improvement with more optimized hierarchical BiLSTMs.
Palavras-chave: Engenharia de computação
Ensino de engenharia de computação
Processamento de linguagem natural
Redação científica
Mineração de texto
Vetorização de palavras
Recomendação de conteúdo
Assistência bibliográfica
Natural language processing
Scientific writing
Text mining
Word embeddings
Content recommendation
Bibliographical assistance
área CNPQ: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO::LOGICAS E SEMANTICA DE PROGRAMAS
Idioma: por
Sigla da Instituição: Universidade Federal de Sergipe
Departamento: DCOMP - Departamento de Computação – Engenharia de Computação – São Cristóvão - Presencial
Citação: Santana, Demetrius Silva de. Assistência bibliográfica durante a escrita de textos científicos : uma abordagem com modelos de linguagem pré-treinados. São Cristóvão, SE, 2019. Monografia (graduação em Engenharia da Computação) – Curso de Engenharia de Computação, Departamento de Computação, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, 2019
URI: http://ri.ufs.br/jspui/handle/riufs/13484
Aparece nas coleções:Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Demetrius_Silva_Santana.pdf1,94 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.