Extração de esquemas de dados semi-estruturados (JSON) utilizando Large Language Model (LLM)

Almeida, Thiago Chafado

Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/9195

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor1	Duarte, Denio	-
dc.creator	Almeida, Thiago Chafado	-
dc.date	2025-12-10	-
dc.date.accessioned	2026-04-01T13:23:47Z	-
dc.date.available	2026	-
dc.date.available	2026-04-01T13:23:47Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://rd.uffs.edu.br/handle/prefix/9195	-
dc.description.abstract	This study investigates the application of Large Language Models (LLMs), specifically Gemma 3-4B and Qwen 2.5-14B, for the automatic extraction of data schemas from JSON files. Considering the challenges imposed by the heterogeneity and dynamic nature of semi-structured data, an approach based on a pipeline of fragmentation, inference, and probabilistic schema fusion is proposed. The validation, performed using the Ajv validator on real-world and synthetic datasets, demonstrated success rates exceeding 99%, confirming the generalization capability of the approach. However, the experiments highlighted that the high computational cost and processing time of larger models still pose significant challenges to the scalability of the solution in resource-constrained environments.	pt_BR
dc.description.resumo	Este estudo investiga a aplicação de Modelos de Linguagem de Grande Escala (LLMs), especificamente Gemma 3-4B e Qwen 2.5-14B, na extração automática de esquemas de dados a partir de arquivos JSON. Considerando os desafios impostos pela heterogeneidade e natureza dinâmica dos dados semiestruturados, propõe-se uma abordagem baseada em um pipeline de fragmentação, inferência e fusão probabilística de esquemas. A validação, realizada através do validador Ajv em coleções reais e sintéticas, demonstrou taxas de sucesso superiores a 99%, comprovando a capacidade de generalização da abordagem. Contudo, os experimentos evidenciaram que o elevado custo computacional e o tempo de processamento dos modelos maiores ainda representam desafios significativos para a escalabilidade da solução em ambientes com recursos limitados.	pt_BR
dc.description.provenance	Submitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-03-31T15:20:17Z No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5)	en
dc.description.provenance	Approved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-04-01T13:23:47Z (GMT) No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5)	en
dc.description.provenance	Made available in DSpace on 2026-04-01T13:23:47Z (GMT). No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5) Previous issue date: 2025	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Fronteira Sul	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Campus Chapecó	pt_BR
dc.publisher.initials	UFFS	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aprendizado computacional	pt_BR
dc.subject	Banco de dados	pt_BR
dc.subject	Modelagem de dados	pt_BR
dc.title	Extração de esquemas de dados semi-estruturados (JSON) utilizando Large Language Model (LLM)	pt_BR
dc.type	Monografia	pt_BR
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
ALMEIDA.pdf		836,02 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas