Use este identificador para citar ou linkar para este item:
https://ri.ufs.br/jspui/handle/riufs/19473
Tipo de Documento: | Dissertação |
Título: | Uma análise exploratória e prática do uso do ETL em portais de transparência |
Autor(es): | Poletti, Marcus Vinicius Santana |
Data do documento: | 30-Ago-2023 |
Orientador: | Rodrigues Júnior, Methanias Colaço |
Resumo: | Contexto: Os portais de dados abertos são construídos com base em processos ETL (Extract, Transform and Load), os quais aumentam a qualidade e interoperabilidade dos dados, perfazendo um subsistema crítico para estas aplicações, passível de pesquisas avaliativas para melhorias. Objetivo: Analisar publicações sobre o uso de ETL em portais de transparência, a fim de caracterizá-las quanto aos seus cenários, impactos, métodos empíricos e dados bibliométricos gerais. A partir dessa caracterização, desenvolver e avaliar um módulo ETL para um portal de transparência, comparando-o qualitativamente com módulos desenvolvidos em duas ferramentas ETL amplamente usadas no mercado. Adicionalmente, foi feita uma análise das eficiências dos procedimentos de carga gerados pelos 3 tratamentos avaliados. Método: Utilizando a estratégia PICO (População, Intervenção, Comparação e Resultado), foi realizado um mapeamento sistemático da literatura. Além disso, foi executada uma Pesquisa-Ação para construção de procedimentos ETL do Anuário Econômico de Sergipe. As ferramentas avaliadas durante o processo de desenvolvimento foram: (1) Pentaho Data Integration - Kettle, Open Source, e (2) SQL Server Integration Services - SSIS, Closed Source, contra (3) um código ETL construído na linguagem Python. Resultados: De um total de 204 publicações pesquisadas, foram selecionados 25 trabalhos, dos quais 40% apresentam, como principal impacto para os portais, a disponibilidade de suporte para construção de cargas por meio de uma interface gráfica, seguida da possibilidade de conectividade entre bases de dados heterogêneos (27%) e capacidade de monitoramento de cargas (22%). Em relação à automação real de cargas e seu controle de qualidade, respectivamente, apenas 8% e 3% dos trabalhos discutiram os impactos dessas características. No que concerne à pesquisaação, foram encontradas evidências de destaque da ferramenta Kettle, do ponto de vista da usabilidade e eficiência de desenvolvimento por meio de interface gráfica, bem como do ponto de vista da curva de aprendizagem. Na sequência, vieram a linguagem de programação Python e a ferramenta SSIS. Em relação à eficiência, a mensuração do tempo de carga mostrou um melhor desempenho da linguagem Python, seguida do Kettle e do SSIS. Conclusão: O trabalho mostrou que o uso de ETL em portais de transparência ainda carece de estudos comparativos e de viabilidade. Nesse sentido, um desafio existente é a escassez de pesquisas que realizem replicações para consolidar e validar os trabalhos já publicados, evidenciado pela insuficiência de experimentos controlados na área. Além disso, análises sobre o controle de qualidade das cargas foram uma importante 5 lacuna identificada. Por fim, definidas as prioridades contextuais de portais de transparência, como, por exemplo, a eficiência das cargas ou a eficiência de desenvolvimento, a avaliação sistematizada de soluções disponíveis, tal como a proposta nesta dissertação, norteia situações de trade-off e seleção do melhor custo-benefício. |
Abstract: | Context: Open data portals are built based on ETL processes (Extract, Transform and Load), which increase data quality and interoperability, making a critical subsystem for these applications, subject to evaluative research for improvements. Objective: To analyze publications on the use of ETL in transparency portals, in order to characterize them in terms of their scenarios, impacts, empirical methods and general bibliometric data. From this characterization, develop and evaluate an ETL module for a transparency portal, qualitatively comparing it with modules developed in two ETL tools widely used in the market. Additionally, an analysis of the efficiencies of the loading procedures generated by the 3 evaluated treatments was carried out. Method: Using the PICO (Population, Intervention, Comparison and Outcome) strategy, a systematic mapping of the literature was carried out. In addition, an Action-Research was carried out for the construction of ETL procedures for the Economic Yearbook of Sergipe. The tools evaluated during the development process were: (1) Pentaho Data Integration - Kettle, Open Source, and (2) SQL Server Integration Services - SSIS, Closed Source, against (3) an ETL code built in the Python language. Results: From a total of 204 researched publications, 25 works were selected, of which 40% present, as the main impact for the portals, the availability of support for the construction of loads through a graphical interface, followed by the possibility of connectivity between bases heterogeneous data (27%) and load monitoring capacity (22%). Regarding the actual automation of loads and its quality control, respectively, only 8% and 3% of the works discussed the impacts of these characteristics. With regard to action research, outstanding evidence of the Kettle tool was found, from the point of view of usability and development efficiency through the graphical interface, as well as from the point of view of the learning curve. Next came the Python programming language and the SSIS tool. Regarding efficiency, the load time measurement showed a better performance of the Python language, followed by Kettle and SSIS. Conclusion: The work showed that the use of ETL in transparency portals still lacks comparative and feasibility studies. In this sense, an existing challenge is the scarcity of research that carry out replications to consolidate and validate already published works, evidenced by the insufficiency of controlled experiments in the area. In addition, analyzes on the quality control of loads was an important identified gap. Finally, once the contextual priorities of transparency portals are defined, such as load efficiency or development efficiency, the systematic evaluation of available solutions, such as the 7 one proposed in this dissertation, guides trade-off situations and selection of the best cost -benefit. |
Palavras-chave: | Computação Armazenamento de dados Banco de dados Portais da transparência Extração, Transformação e Carga (ETL) Eficiência Usabilidade Qualidade Transparency portals Extract, Transform and Load (ETL) Efficiency Usability Quality |
área CNPQ: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Agência de fomento: | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES |
Idioma: | por |
Sigla da Instituição: | Universidade Federal de Sergipe (UFS) |
Programa de Pós-graduação: | Pós-Graduação em Ciência da Computação |
Citação: | POLETTI, Marcus Vinicius Santana. Uma análise exploratória e prática do uso do ETL em portais de transparência. 2023. 60 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Sergipe, São Cristóvão, 2023. |
URI: | https://ri.ufs.br/jspui/handle/riufs/19473 |
Aparece nas coleções: | Mestrado em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MARCUS_VINICIUS_SANTANA_POLETTI.pdf | 1,27 MB | Adobe PDF | ![]() Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.