Avaliação da blocagem de grandes bases de dados na plataforma de tempo real Apache Storm

Belinski, Leonardo

Please use this identifier to cite or link to this item: https://rd.uffs.edu.br/handle/prefix/2696

Type:	Monografia
Title:	Avaliação da blocagem de grandes bases de dados na plataforma de tempo real Apache Storm
Author:	Belinski, Leonardo
First advisor:	Dal Bianco, Guilherme
Resume:	O processamento de dados em tempo real permite que sejam processadas grandes quantidades e volumes de dados de forma contínua. Neste grande volume de dados, podem existir dados que representem a mesma informação (duplicação de dados). Este problema é uma anomalia que desperdiça recursos de tempo de processamento, espaço em disco e de memória auxiliar. Para tratar essa anomalia, é utilizada a técnica de deduplicação de dados. Nesta técnica, são identiﬁcados e excluídos dados duplicados. Para ser aplicada em grandes bases de dados, durante o processo de identiﬁcação de duplicatas, é utilizada a técnica de agrupamento de dados (ou blocagem de dados). Nesta técnica, são agrupados os dados que possuem alguma similaridade conforme uma característica deﬁnida. Assim, ao agrupar os dados, no processo de identiﬁcação de duplicatas, serão apenas realizadas comparações entre os elementos que compõem cada bloco. Neste contexto, foi desenvolvida a ferramenta RIJOIN [7]. Esta ferramenta, desenvolvida na plataforma Apache Storm, combina a deduplicação de dados com o agrupamento de dados, índice invertido, ﬁltros e o processamento de dados em tempo real. Assim, neste trabalho, serão propostas melhorias nesta ferramenta, sendo estas principalmente direcionadas ao processo de criação e uso do índice invertido, na etapa de criação dos blocos de registros. Através detestes,foi observado que as melhorias propostas neste trabalho alcançaram resultados promissores, dentre estes, a redução no número de reordenações de registros.
Abstract:	Real-time data processing allows large amounts and volumes of data to be processed continuously. In this large volume of data, there may be data representing the same information (data duplication). This problem is an anomaly that wastes resources on processing time, disk space and auxiliary memory.To treat this anomaly, the data deduplication technique is used. Duplicate data are identiﬁed and deleted in this technique. To be applied in large databases, during the process of identifying duplicates, the technique of data grouping (or blocking of data) is used. In this technique, the data that have some similarity are grouped according to a deﬁned characteristic. Thus, when grouping the data, in the process of identifying duplicates, only comparisons will be made between the elements that make up each block. In this context, the RIJOIN tool [7] was developed. This tool, developed on the Apache Storm platform, combines data deduplication with data collation, inverted index, ﬁlters and real-time data processing. Thus, in this work, improvements will be proposed in this tool, these being mainly directed to the process of creation and use of inverted index, in the stage of creation of records blocks. Through the tests,it was observed that the improvements proposed in this work achieved promising results, among them, the reduction in the number of records reordering.
Keywords:	Processamento de dados Mineração de dados
Language:	por
Country:	Brasil
Publisher:	Universidade Federal da Fronteira Sul
Acronym of the institution:	UFFS
College, Institute or Department:	Campus Chapecó
Type of Access:	Acesso Aberto
URI:	https://rd.uffs.edu.br/handle/prefix/2696
Issue Date:	2018
Appears in Collections:	Ciência da Computação

Files in This Item:

File	Description	Size	Format
BELINSKI.pdf		1.02 MB	Adobe PDF	View/Open

Show full item record Recommend this item