Please use this identifier to cite or link to this item: https://ri.ufs.br/jspui/handle/riufs/10677
Document Type: Dissertação
Title: Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante
Authors: Melo, Fabrício Silva
Issue Date: 11-Jun-2018
Advisor: Macedo, Hendrik Teixeira
Resumo : Extração de relação é a tarefa de extrair relações entre entidades nomeadas de textos em linguagem natural. Este trabalho apresenta uma técnica de extração de informação para extração de relações com redes neurais convolucionais treinadas para o reconhecimento de padrões de sentenças representadas sobre word2vec de baixa dimensão e position embeddings. Importantes estudos relacionados à extração de relações com classificadores treinados sob supervisão distante usaram um conjunto de dados construído por Riedel, Yao e McCallum (2010) como meio para treinar e testar classificadores de relações. No entanto, importantes limitações acerca desses dados foram levantadas: o uso de uma metodologia de amostragem estatisticamente inapropriada na seleção de amostras que constituem o conjunto de dados; a falta de avaliação da precisão dos classificadores por tipo (classe) de relação; e a negligência do problema de desequilíbrio na distribuição de classes nesse conjunto de dados, bem como de medidas para treinar os classificadores em meio a dados desbalanceados. Diante do problema exposto, essa dissertação tem o objetivo de propor e avaliar um modelo baseado em deep convolutional neural networks para melhorar a precisão de classificação de relações entre entidades nomeadas extraídas sob supervisão distante. Foi feita uma avaliação da distribuição de amostras em cada tipo de relação em um conjunto de dados construído por supervisão distante, a partir da base de conhecimento FreeBase, largamente utilizado para treinamento pelos mais recentes trabalhos de extração de relações. Foi constatado que esses trabalhos fizeram referência à qualidade de classificação de relações generalizando conclusões bastante otimistas baseadas em um conjunto de dados fortemente desbalanceado, usando, inclusive, metodologias de amostragem estatisticamente inapropriadas na construção do conjunto de teste. Esse conjunto de dados foi tratado utilizando amostragem estratificada aleatória para seu uso no treinamento e teste do modelo convolucional proposto utilizando validação cruzada k-fold estratificada. Os experimentos demonstram que o modelo proposto pode alcançar 87.0% de precisão e 88.0% de recall. Esses resultados provam que nosso modelo supera o estado da arte em classificação de relações.
Abstract: Relation extraction is the task of extracting relation between named entities from natural language texts. This work presents an information extraction technique for extracting relation with convoluted neural networks trained for the recognition of sentence patterns represented on low-dimension word2vec and position embeddings. Significant studies related to the relation extraction with trained classifiers under distant supervision used a data set constructed by Riedel, Yao e McCallum (2010) as a means to train and test relation classifiers. However, important limitations to this data were raised: the use of a statistically inappropriate sampling methodology in the selection of samples constituting the data set; the lack of evaluation of the accuracy of classifiers by type (class) of relation; and the neglect of the problem of imbalance in the distribution of classes in this data set, as well as of measures to train the classifiers amid unbalanced data. In view of the above problem, this dissertation aims to propose and evaluate a "deep convolutional neural networks" based model to improve the classification precision of relation between named entities extracted under distant supervision. An evaluation of the distribution of samples in each type of relationship was made in a dataset constructed by distant supervision, from the FreeBase knowledge base, widely used for training by the most recent relation extraction work. It was found that these studies made reference to the quality of classification of relations generalizing very optimistic conclusions based on a strongly unbalanced data set, using, also, sampling methodologies statistically inappropriate in the construction of the test set. This data set was treated using random stratified sampling for use in the training and testing of the proposed convolutional model using stratified k-fold cross-validation. Experiments show that the proposed model can achieve 87.0% precision and 88.0% recall. This result prove that our model outperform the art of state on the relation classification.
Keywords: Processamento de linguagem natural
Extração de informação
Extração de relação
Classificação de relação
Supervisão distante
Redes convolucionais
Relation extraction
Relation classification
Distant supervision
Convolutional network
Subject CNPQ: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Language: por
Institution: Universidade Federal de Sergipe
Program Affiliation: Pós-Graduação em Ciência da Computação
Citation: MELO, Fabrício Silva. Extração de relações a partir de dados não estruturados baseada em deep learning e supervisão distante. 2018. 71 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Sergipe, São Cristóvão, SE, 2018.
URI: http://ri.ufs.br/jspui/handle/riufs/10677
Appears in Collections:Mestrado em Ciência da Computação

Files in This Item:
File Description SizeFormat 
FABRICIO_SILVA_MELO.pdf2,71 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.