Por favor, use este identificador para citar o enlazar este ítem: https://ri.ufs.br/jspui/handle/riufs/19473
Tipo de Documento: Dissertação
Título : Uma análise exploratória e prática do uso do ETL em portais de transparência
Autor : Poletti, Marcus Vinicius Santana
Fecha de publicación : 30-ago-2023
Director(a): Rodrigues Júnior, Methanias Colaço
Resumen: Contexto: Os portais de dados abertos são construídos com base em processos ETL (Extract, Transform and Load), os quais aumentam a qualidade e interoperabilidade dos dados, perfazendo um subsistema crítico para estas aplicações, passível de pesquisas avaliativas para melhorias. Objetivo: Analisar publicações sobre o uso de ETL em portais de transparência, a fim de caracterizá-las quanto aos seus cenários, impactos, métodos empíricos e dados bibliométricos gerais. A partir dessa caracterização, desenvolver e avaliar um módulo ETL para um portal de transparência, comparando-o qualitativamente com módulos desenvolvidos em duas ferramentas ETL amplamente usadas no mercado. Adicionalmente, foi feita uma análise das eficiências dos procedimentos de carga gerados pelos 3 tratamentos avaliados. Método: Utilizando a estratégia PICO (População, Intervenção, Comparação e Resultado), foi realizado um mapeamento sistemático da literatura. Além disso, foi executada uma Pesquisa-Ação para construção de procedimentos ETL do Anuário Econômico de Sergipe. As ferramentas avaliadas durante o processo de desenvolvimento foram: (1) Pentaho Data Integration - Kettle, Open Source, e (2) SQL Server Integration Services - SSIS, Closed Source, contra (3) um código ETL construído na linguagem Python. Resultados: De um total de 204 publicações pesquisadas, foram selecionados 25 trabalhos, dos quais 40% apresentam, como principal impacto para os portais, a disponibilidade de suporte para construção de cargas por meio de uma interface gráfica, seguida da possibilidade de conectividade entre bases de dados heterogêneos (27%) e capacidade de monitoramento de cargas (22%). Em relação à automação real de cargas e seu controle de qualidade, respectivamente, apenas 8% e 3% dos trabalhos discutiram os impactos dessas características. No que concerne à pesquisaação, foram encontradas evidências de destaque da ferramenta Kettle, do ponto de vista da usabilidade e eficiência de desenvolvimento por meio de interface gráfica, bem como do ponto de vista da curva de aprendizagem. Na sequência, vieram a linguagem de programação Python e a ferramenta SSIS. Em relação à eficiência, a mensuração do tempo de carga mostrou um melhor desempenho da linguagem Python, seguida do Kettle e do SSIS. Conclusão: O trabalho mostrou que o uso de ETL em portais de transparência ainda carece de estudos comparativos e de viabilidade. Nesse sentido, um desafio existente é a escassez de pesquisas que realizem replicações para consolidar e validar os trabalhos já publicados, evidenciado pela insuficiência de experimentos controlados na área. Além disso, análises sobre o controle de qualidade das cargas foram uma importante 5 lacuna identificada. Por fim, definidas as prioridades contextuais de portais de transparência, como, por exemplo, a eficiência das cargas ou a eficiência de desenvolvimento, a avaliação sistematizada de soluções disponíveis, tal como a proposta nesta dissertação, norteia situações de trade-off e seleção do melhor custo-benefício.
Resumen : Context: Open data portals are built based on ETL processes (Extract, Transform and Load), which increase data quality and interoperability, making a critical subsystem for these applications, subject to evaluative research for improvements. Objective: To analyze publications on the use of ETL in transparency portals, in order to characterize them in terms of their scenarios, impacts, empirical methods and general bibliometric data. From this characterization, develop and evaluate an ETL module for a transparency portal, qualitatively comparing it with modules developed in two ETL tools widely used in the market. Additionally, an analysis of the efficiencies of the loading procedures generated by the 3 evaluated treatments was carried out. Method: Using the PICO (Population, Intervention, Comparison and Outcome) strategy, a systematic mapping of the literature was carried out. In addition, an Action-Research was carried out for the construction of ETL procedures for the Economic Yearbook of Sergipe. The tools evaluated during the development process were: (1) Pentaho Data Integration - Kettle, Open Source, and (2) SQL Server Integration Services - SSIS, Closed Source, against (3) an ETL code built in the Python language. Results: From a total of 204 researched publications, 25 works were selected, of which 40% present, as the main impact for the portals, the availability of support for the construction of loads through a graphical interface, followed by the possibility of connectivity between bases heterogeneous data (27%) and load monitoring capacity (22%). Regarding the actual automation of loads and its quality control, respectively, only 8% and 3% of the works discussed the impacts of these characteristics. With regard to action research, outstanding evidence of the Kettle tool was found, from the point of view of usability and development efficiency through the graphical interface, as well as from the point of view of the learning curve. Next came the Python programming language and the SSIS tool. Regarding efficiency, the load time measurement showed a better performance of the Python language, followed by Kettle and SSIS. Conclusion: The work showed that the use of ETL in transparency portals still lacks comparative and feasibility studies. In this sense, an existing challenge is the scarcity of research that carry out replications to consolidate and validate already published works, evidenced by the insufficiency of controlled experiments in the area. In addition, analyzes on the quality control of loads was an important identified gap. Finally, once the contextual priorities of transparency portals are defined, such as load efficiency or development efficiency, the systematic evaluation of available solutions, such as the 7 one proposed in this dissertation, guides trade-off situations and selection of the best cost -benefit.
Palabras clave : Computação
Armazenamento de dados
Banco de dados
Portais da transparência
Extração, Transformação e Carga (ETL)
Eficiência
Usabilidade
Qualidade
Transparency portals
Extract, Transform and Load (ETL)
Efficiency
Usability
Quality
Área CNPQ: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Patrocinio: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
Idioma : por
Institución: Universidade Federal de Sergipe (UFS)
Programa de Posgrado: Pós-Graduação em Ciência da Computação
Citación : POLETTI, Marcus Vinicius Santana. Uma análise exploratória e prática do uso do ETL em portais de transparência. 2023. 60 f. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Sergipe, São Cristóvão, 2023.
URI : https://ri.ufs.br/jspui/handle/riufs/19473
Aparece en las colecciones: Mestrado em Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
MARCUS_VINICIUS_SANTANA_POLETTI.pdf1,27 MBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.