Por favor, use este identificador para citar o enlazar este ítem: https://rd.uffs.edu.br/handle/prefix/9195
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisor1Duarte, Denio-
dc.creatorAlmeida, Thiago Chafado-
dc.date2025-12-10-
dc.date.accessioned2026-04-01T13:23:47Z-
dc.date.available2026-
dc.date.available2026-04-01T13:23:47Z-
dc.date.issued2025-
dc.identifier.urihttps://rd.uffs.edu.br/handle/prefix/9195-
dc.description.abstractThis study investigates the application of Large Language Models (LLMs), specifically Gemma 3-4B and Qwen 2.5-14B, for the automatic extraction of data schemas from JSON files. Considering the challenges imposed by the heterogeneity and dynamic nature of semi-structured data, an approach based on a pipeline of fragmentation, inference, and probabilistic schema fusion is proposed. The validation, performed using the Ajv validator on real-world and synthetic datasets, demonstrated success rates exceeding 99%, confirming the generalization capability of the approach. However, the experiments highlighted that the high computational cost and processing time of larger models still pose significant challenges to the scalability of the solution in resource-constrained environments.pt_BR
dc.description.resumoEste estudo investiga a aplicação de Modelos de Linguagem de Grande Escala (LLMs), especificamente Gemma 3-4B e Qwen 2.5-14B, na extração automática de esquemas de dados a partir de arquivos JSON. Considerando os desafios impostos pela heterogeneidade e natureza dinâmica dos dados semiestruturados, propõe-se uma abordagem baseada em um pipeline de fragmentação, inferência e fusão probabilística de esquemas. A validação, realizada através do validador Ajv em coleções reais e sintéticas, demonstrou taxas de sucesso superiores a 99%, comprovando a capacidade de generalização da abordagem. Contudo, os experimentos evidenciaram que o elevado custo computacional e o tempo de processamento dos modelos maiores ainda representam desafios significativos para a escalabilidade da solução em ambientes com recursos limitados.pt_BR
dc.description.provenanceSubmitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-03-31T15:20:17Z No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5)en
dc.description.provenanceApproved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-04-01T13:23:47Z (GMT) No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5)en
dc.description.provenanceMade available in DSpace on 2026-04-01T13:23:47Z (GMT). No. of bitstreams: 1 ALMEIDA.pdf: 856083 bytes, checksum: 75220d36a5309bdf0040baf08df0d641 (MD5) Previous issue date: 2025en
dc.languageporpt_BR
dc.publisherUniversidade Federal da Fronteira Sulpt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus Chapecópt_BR
dc.publisher.initialsUFFSpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectAprendizado computacionalpt_BR
dc.subjectBanco de dadospt_BR
dc.subjectModelagem de dadospt_BR
dc.titleExtração de esquemas de dados semi-estruturados (JSON) utilizando Large Language Model (LLM)pt_BR
dc.typeMonografiapt_BR
Aparece en las colecciones: Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
ALMEIDA.pdf836.02 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.