Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/2696
Tipo: Monografia
Título: Avaliação da blocagem de grandes bases de dados na plataforma de tempo real Apache Storm
Autor(es): Belinski, Leonardo
Primeiro Orientador: Dal Bianco, Guilherme
Resumo: O processamento de dados em tempo real permite que sejam processadas grandes quantidades e volumes de dados de forma contínua. Neste grande volume de dados, podem existir dados que representem a mesma informação (duplicação de dados). Este problema é uma anomalia que desperdiça recursos de tempo de processamento, espaço em disco e de memória auxiliar. Para tratar essa anomalia, é utilizada a técnica de deduplicação de dados. Nesta técnica, são identificados e excluídos dados duplicados. Para ser aplicada em grandes bases de dados, durante o processo de identificação de duplicatas, é utilizada a técnica de agrupamento de dados (ou blocagem de dados). Nesta técnica, são agrupados os dados que possuem alguma similaridade conforme uma característica definida. Assim, ao agrupar os dados, no processo de identificação de duplicatas, serão apenas realizadas comparações entre os elementos que compõem cada bloco. Neste contexto, foi desenvolvida a ferramenta RIJOIN [7]. Esta ferramenta, desenvolvida na plataforma Apache Storm, combina a deduplicação de dados com o agrupamento de dados, índice invertido, filtros e o processamento de dados em tempo real. Assim, neste trabalho, serão propostas melhorias nesta ferramenta, sendo estas principalmente direcionadas ao processo de criação e uso do índice invertido, na etapa de criação dos blocos de registros. Através detestes,foi observado que as melhorias propostas neste trabalho alcançaram resultados promissores, dentre estes, a redução no número de reordenações de registros.
Abstract/Resumen: Real-time data processing allows large amounts and volumes of data to be processed continuously. In this large volume of data, there may be data representing the same information (data duplication). This problem is an anomaly that wastes resources on processing time, disk space and auxiliary memory.To treat this anomaly, the data deduplication technique is used. Duplicate data are identified and deleted in this technique. To be applied in large databases, during the process of identifying duplicates, the technique of data grouping (or blocking of data) is used. In this technique, the data that have some similarity are grouped according to a defined characteristic. Thus, when grouping the data, in the process of identifying duplicates, only comparisons will be made between the elements that make up each block. In this context, the RIJOIN tool [7] was developed. This tool, developed on the Apache Storm platform, combines data deduplication with data collation, inverted index, filters and real-time data processing. Thus, in this work, improvements will be proposed in this tool, these being mainly directed to the process of creation and use of inverted index, in the stage of creation of records blocks. Through the tests,it was observed that the improvements proposed in this work achieved promising results, among them, the reduction in the number of records reordering.
Palavras-chave: Processamento de dados
Mineração de dados
Idioma: por
País: Brasil
Instituição: Universidade Federal da Fronteira Sul
Sigla da Instituição: UFFS
Faculdade, Instituto ou Departamento: Campus Chapecó
Tipo de Acesso: Acesso Aberto
URI: https://rd.uffs.edu.br/handle/prefix/2696
Data do documento: 2018
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
BELINSKI.pdf1,02 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.