Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/9195
Tipo: Monografia
Título: Extração de esquemas de dados semi-estruturados (JSON) utilizando Large Language Model (LLM)
Autor(es): Almeida, Thiago Chafado
Primeiro Orientador: Duarte, Denio
Resumo: Este estudo investiga a aplicação de Modelos de Linguagem de Grande Escala (LLMs), especificamente Gemma 3-4B e Qwen 2.5-14B, na extração automática de esquemas de dados a partir de arquivos JSON. Considerando os desafios impostos pela heterogeneidade e natureza dinâmica dos dados semiestruturados, propõe-se uma abordagem baseada em um pipeline de fragmentação, inferência e fusão probabilística de esquemas. A validação, realizada através do validador Ajv em coleções reais e sintéticas, demonstrou taxas de sucesso superiores a 99%, comprovando a capacidade de generalização da abordagem. Contudo, os experimentos evidenciaram que o elevado custo computacional e o tempo de processamento dos modelos maiores ainda representam desafios significativos para a escalabilidade da solução em ambientes com recursos limitados.
Abstract/Resumen: This study investigates the application of Large Language Models (LLMs), specifically Gemma 3-4B and Qwen 2.5-14B, for the automatic extraction of data schemas from JSON files. Considering the challenges imposed by the heterogeneity and dynamic nature of semi-structured data, an approach based on a pipeline of fragmentation, inference, and probabilistic schema fusion is proposed. The validation, performed using the Ajv validator on real-world and synthetic datasets, demonstrated success rates exceeding 99%, confirming the generalization capability of the approach. However, the experiments highlighted that the high computational cost and processing time of larger models still pose significant challenges to the scalability of the solution in resource-constrained environments.
Palavras-chave: Inteligência artificial
Aprendizado computacional
Banco de dados
Modelagem de dados
Idioma: por
País: Brasil
Instituição: Universidade Federal da Fronteira Sul
Sigla da Instituição: UFFS
Faculdade, Instituto ou Departamento: Campus Chapecó
Tipo de Acesso: Acesso Aberto
URI: https://rd.uffs.edu.br/handle/prefix/9195
Data do documento: 2025
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
ALMEIDA.pdf836.02 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.