Use este identificador para citar ou linkar para este item:
https://ri.ufs.br/jspui/handle/riufs/10677
Tipo de Documento: | Dissertação |
Título: | Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante |
Autor(es): | Melo, Fabrício Silva |
Data do documento: | 11-Jun-2018 |
Orientador: | Macedo, Hendrik Teixeira |
Resumo: | Extração de relação é a tarefa de extrair relações entre entidades nomeadas de textos em linguagem natural. Este trabalho apresenta uma técnica de extração de informação para extração de relações com redes neurais convolucionais treinadas para o reconhecimento de padrões de sentenças representadas sobre word2vec de baixa dimensão e position embeddings. Importantes estudos relacionados à extração de relações com classificadores treinados sob supervisão distante usaram um conjunto de dados construído por Riedel, Yao e McCallum (2010) como meio para treinar e testar classificadores de relações. No entanto, importantes limitações acerca desses dados foram levantadas: o uso de uma metodologia de amostragem estatisticamente inapropriada na seleção de amostras que constituem o conjunto de dados; a falta de avaliação da precisão dos classificadores por tipo (classe) de relação; e a negligência do problema de desequilíbrio na distribuição de classes nesse conjunto de dados, bem como de medidas para treinar os classificadores em meio a dados desbalanceados. Diante do problema exposto, essa dissertação tem o objetivo de propor e avaliar um modelo baseado em deep convolutional neural networks para melhorar a precisão de classificação de relações entre entidades nomeadas extraídas sob supervisão distante. Foi feita uma avaliação da distribuição de amostras em cada tipo de relação em um conjunto de dados construído por supervisão distante, a partir da base de conhecimento FreeBase, largamente utilizado para treinamento pelos mais recentes trabalhos de extração de relações. Foi constatado que esses trabalhos fizeram referência à qualidade de classificação de relações generalizando conclusões bastante otimistas baseadas em um conjunto de dados fortemente desbalanceado, usando, inclusive, metodologias de amostragem estatisticamente inapropriadas na construção do conjunto de teste. Esse conjunto de dados foi tratado utilizando amostragem estratificada aleatória para seu uso no treinamento e teste do modelo convolucional proposto utilizando validação cruzada k-fold estratificada. Os experimentos demonstram que o modelo proposto pode alcançar 87.0% de precisão e 88.0% de recall. Esses resultados provam que nosso modelo supera o estado da arte em classificação de relações. |
Abstract: | Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification. |
Palavras-chave: | Processamento de linguagem natural Extração de informação Extração de relação Classificação de relação Supervisão distante Redes convolucionais Relation extraction Relation classification Distant supervision Convolutional network |
área CNPQ: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
Sigla da Instituição: | Universidade Federal de Sergipe |
Programa de Pós-graduação: | Pós-Graduação em Ciência da Computação |
Citação: | MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018. |
URI: | http://ri.ufs.br/jspui/handle/riufs/10677 |
Aparece nas coleções: | Mestrado em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
FABRICIO_SILVA_MELO.pdf | 2,71 MB | Adobe PDF | ![]() Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.