Please use this identifier to cite or link to this item: https://ri.ufs.br/jspui/handle/riufs/12496
Document Type: Monografia
Title: Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA
Authors: Santana, Diego Michael Almeida
Issue Date: 17-Oct-2019
Advisor: Gusmão, Renê Pereira de
Resumo : O aumento crescente do volume de dados disponíveis na Internet (Big Data) cria uma necessidade urgente de gerenciamento. Nesse sentido, gerar conhecimento a partir desses dados se torna um desafio computacional ainda maior. Para mitigar, são aplicadas técnicas no campo da Mineração de Dados como os métodos de Agrupamento de Dados (Data Clustering). Contudo, o desempenho dessas técnicas frente ao Big Data não se mostra satisfatório em relação ao tempo de execução, uma vez que os algoritmos tradicionais são sequenciais ou síncronos, então esta pesquisa procura explorar novas formas de acelerar os algoritmos de Agrupamento de Dados como a implementação de recursos da Computação Paralela. Assim sendo, a tecnologia CUDA foi selecionada após uma revisão das principais técnicas de paralelização e quais resultados foram alcançados. Com efeito de aumentar a escalabilidade para grandes conjuntos de dados e realizar uma comparação de desempenho, então uma versão paralela do Algoritmo Dinâmico de Agrupamento Rígido com Peso de Relevância para cada Matriz de Dissimilaridade Estimada Localmente (MRDCA-RWL) foi implementada. Dessa forma, os experimentos utilizaram dez conjuntos de dados conhecidos e disponíveis no repositório da UC Irvine. Logo, a versão paralela proposta por este trabalho obteve uma aceleração média de 16,7 vezes no tempo de execução, o que representa um salto significativo no desempenho do algoritmo.
Abstract: The increasing volume of data available on the Internet (Big Data) creates an urgent need for management. In this sense, generating knowledge from these data becomes an even greater computational challenge. To mitigate, techniques are applied in the Data Mining field as the Data Clustering methods. However, the performance of these techniques against Big Data is not satisfactory in relation to the execution time, since the traditional algorithms are sequential or synchronous, so this research seeks to explore new ways to accelerate the algorithms of Data Clustering as the implementation of Parallel Computing resources. Therefore, CUDA technology was selected after a review of the main parallelization techniques and what results were achieved. With the effect of increasing scalability for large data sets and performing a performance comparison, then a parallel version of the Dynamic Hard Clustering Algorithm with Relevance Weight for each Dissimilarity Matrix Estimated Locally (MRDCA-RWL) has been implemented. In this way, the experiments used ten known data sets and available in the UC Irvine repository. Therefore, the parallel version proposed by this work obtained an average acceleration of 16.7 times in the execution time, which represents a significant leap in the performance of the algorithm.
Keywords: Sistemas de informação
Ensino de sistemas de informação
Agrupamento de dados
Computação paralela
Big Data
Data clustering
Parallel computing
Subject CNPQ: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Language: por
Institution: Universidade Federal de Sergipe
Department: DCOMP - Departamento de Computação – Sistemas de Informação – São Cristóvão - Presencial
Citation: Santana, Diego Michael Almeida. Paralelização do algoritmo para Agrupamento de Dados MRDCA-RWL usando GPU e CUDA. São Cristóvão, SE, 2019. Monografia (graduação em Sistema de Informações) – Curso de Sistemas de Informação, Departamento de Computação, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, 2019
URI: http://ri.ufs.br/jspui/handle/riufs/12496
Appears in Collections:Computação

Files in This Item:
File Description SizeFormat 
Diego_Michael_Almeida_Santana.pdf753,54 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.