Use este identificador para citar ou linkar para este item:
https://ri.ufs.br/jspui/handle/riufs/18318
Tipo de Documento: | Dissertação |
Título: | Desenvolvimento e avaliação de desempenho de um cluster Raspberry Pi e Apache Hadoop em aplicações big data |
Autor(es): | Alves Neto, Antônio José |
Data do documento: | 20-Abr-2023 |
Orientador: | Ordonez, Edward David Moreno |
Coorientador: | Carneiro Neto, José Aprígio |
Resumo: | Atualmente, com o exponencial avanço da tecnologia, uma grande quantidade dados é gerada diariamente. Dados esses que não são gerados apenas por pessoas. Uma gama de equipamentos eletrônicos também tornaram-se grandes geradores, dos quais esses grandes volumes de dados são conhecidos como Big Data e produzem informações valiosas e úteis para business intelligence, previsão, suporte à decisão, dentre outras possibilidades. Entretanto, o processamento desse grande volume de dados requer uma abordagem computacional diferente da tradicional, chamada de Computação de Alta Performance (High Perfomance Computing - HPC). Ao longo dos anos, a HPC vem sendo obtida graças à utilização de supercomputadores ou através de clusters computacionais. O primeiro deixou de ser uma opção pelo seu alto custo e difícil de manutenção, deixando a “clusterização” como a alternativa ideal. Os clusters são sistemas fracamente acoplados, formados por um conjunto de computadores que trabalham em colaboração uns com os outros, usando bibliotecas de troca de mensagens. Além disso, os clusters formados por Computadores de Placa Única (Single Board Computer - SBC) são uma alternativa viável para o desenvolvimento de pesquisas nessa área. Dentre os computadores de placa única, destaca se a Raspberry Pi, um SBC desenvolvido inicialmente para promover o ensino da ciência da computação. Sua variedade de modelos permite atender a diversas necessidades específicas e não requer grandes investimentos. Para operacionalização e processamento desse grande volume de dados em um cluster, faz-se necessário a instalação de uma plataforma de big data, sendo o Apache Hadoop uma das mais difundidas disponíveis atualmente. Desta forma, uma boa solução para se obter um cluster big data de baixo custo é utilizar a Raspberry Pi como estrutura de hardware e o Apache Hadoop como plataforma Big Data. No entanto, a falta de um material detalhado explicando todas as etapas da instalação, o processo de configuração e, por fim, a certificação de que o cluster Hadoop está funcionando corretamente é um problema pouco explorado pela comunidade acadêmica. Além disso, o monitoramento de recursos do cluster também é um problema que é pouco abordado pela academia. Partindo dessa problemática, este trabalho tem como objetivo, o desenvolvimento e avaliação de desempenho de um cluster big data de baixo custo utilizando Raspberry Pi, como estrutura de hardware de baixo custo e o Apache Hadoop como plataforma de Big Data. A avaliação do mesmo será feita utilizando benchmarks difundidos na área (Terasort e TestDFSIO), além de acompanhar e monitorar o uso dos seus recursos utilizando as ferramentas Zabbix e Grafana, provendo um material completo e detalhado de todo esse processo. |
Abstract: | Currently, with the exponential advancement of technology, a large amount of data is generated daily. These data aren’t generated just by people. A range of electronic equipment has also become great generators. These large volumes of data are known as Big Data and produce valuable and helpful information for business intelligence, forecasting, and decision support, among other possibilities. However, processing this large volume of data requires a different computational approach from the traditional one, called High Performance Computing (HPC). Over the years, the HPC has been using supercomputers or computing clusters. The first one is no longer an option due to its high cost and difficulty to maintain, making clustering an ideal alternative. Clusters are loosely coupled systems, formed by a set of computers that work in collaboration with each other, using message exchange libraries. In addition, clusters formed by Single Board Computers (SBC) are a viable alternative for the development of research in this area. Among the SBCs, the Raspberry Pi stands out, a SBC initially developed to promote the teaching of computer science. Its variety of models allows it to meet several specific requirements and does not require large investments. To operate and to process this large volume of data in a cluster, it is necessary to have a big data platform, the Apache Hadoop being one of the most widely available today. Thus, a good solution to obtain a low-cost big data cluster is to combine the use the Raspberry Pi as the hardware structure and Apache Hadoop as Big Data platform. However, the lack of detailed material explaining all the installation steps, the configuration process, and, finally, the certification that the Hadoop cluster is working correctly is a problem little explored by the academic community. In addition, the monitoring of cluster resources is also a problem that is rarely addressed by the academy. In order to solve this problem, this work aims to develop and evaluate the performance of a low-cost big data cluster using Raspberry Pi as a low-cost hardware structure and Apache Hadoop as a Big Data platform. Its evaluation will be done using benchmarks widespread in the area (Terasort and TestDFSIO), in addition to accompanying and monitoring the use of its resources using the tools Zabbix and Grafana, providing a complete and detailed material of this entire process. |
Palavras-chave: | Plataforma aberta da web Benchmarking (administração) Big data Cluster Raspberry Pi Zabbix Apache Hadoop Benchmarks Grafana |
área CNPQ: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
Sigla da Instituição: | Universidade Federal de Sergipe (UFS) |
Programa de Pós-graduação: | Pós-Graduação em Ciência da Computação |
Citação: | ALVES NETO, Antônio José. Desenvolvimento e avaliação de desempenho de um cluster Raspberry Pi e Apache Hadoop em aplicações big data. 2023. 108 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Sergipe, São Cristóvão, 2023. |
URI: | https://ri.ufs.br/jspui/handle/riufs/18318 |
Aparece nas coleções: | Mestrado em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
ANTONIO_JOSE_ALVES_NETO.pdf | 23,39 MB | Adobe PDF | ![]() Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.