Please use this identifier to cite or link to this item:
https://rd.uffs.edu.br/handle/prefix/9200Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor1 | Duarte, Denio | - |
| dc.creator | Krzyzaniak, Luan Alecxander | - |
| dc.date | 2025-12-10 | - |
| dc.date.accessioned | 2026-04-06T19:06:00Z | - |
| dc.date.available | 2026 | - |
| dc.date.available | 2026-04-06T19:06:00Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | https://rd.uffs.edu.br/handle/prefix/9200 | - |
| dc.description.abstract | This work explores the use of Large Language Models (LLMs) for schema extraction from unstructured legal documents. The study proposes an approach that integrates data collection techniques, text preprocessing, prompt engineering, and embedding-based evaluation to examine the applicability of LLMs in identifying and organizing legal information efficiently. For evaluation, the Mistral 7B Instruct v0.2 model was applied to 471 Price Registration Records (ARPs), segmented into 2,000-token blocks. Results from the per-document analysis indicate strong performance in data type classification (Type Accuracy: 0.946; Type Precision: 0.972), but moderate semantic performance (Semantic Accuracy: 0.412; Semantic Coverage: 0.714), revealing consistent typing but limitations in semantic correspondence. A second evaluation stage examined a unified JSON constructed from all extracted schemas, in which semantic metrics reached maximum values, showing that the model successfully recovers all expected fields at least once, although with increased noise. The findings suggest that LLMs can serve as auxiliary tools for legal schema extraction, reducing manual effort, but still require additional semantic verification and structural consolidation strategies for practical deployment. | pt_BR |
| dc.description.resumo | Este trabalho explora o uso de Large Language Models (LLMs) na extração de esquemas a partir de documentos legais não estruturados. O estudo propõe uma abordagem que integra técnicas de coleta, pré-processamento textual, engenharia de prompt e aplicação de embedding para estudar a aplicação de LLMs na identificação e organização eficiente de informações jurídicas. Para avaliação, foi utilizado o modelo Mistral 7B Instruct v0.2 em 471 Atas de Registro de Preços (ARPs), segmentadas em blocos de 2.000 tokens. Os resultados da análise por documento indicam alto desempenho na classificação de tipos de dados (Type Accuracy: 0,946; Type Precision: 0,972), mas desempenho semântico moderado (Semantic Accuracy: 0,412; Semantic Coverage: 0,714), revelando consistência na tipagem, porém limitações na correspondência semântica. Uma segunda etapa avaliou um JSON unificado construído a partir de todos os esquemas extraídos, no qual as métricas semânticas atingiram valores máximos, mostrando que o modelo recupera todos os campos esperados ao menos uma vez, embora com aumento de ruído. Os achados sugerem que LLMs podem atuar como ferramentas auxiliares na extração de esquemas jurídicos, reduzindo esforços manuais, mas ainda dependem de estratégias adicionais de verificação semântica e consolidação estrutural para aplicação prática. | pt_BR |
| dc.description.provenance | Submitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-04-02T13:51:36Z No. of bitstreams: 1 KRZYZANIAK.pdf: 1364370 bytes, checksum: 955a27214107c96f94b9698f4ae6f0eb (MD5) | en |
| dc.description.provenance | Approved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-04-06T19:06:00Z (GMT) No. of bitstreams: 1 KRZYZANIAK.pdf: 1364370 bytes, checksum: 955a27214107c96f94b9698f4ae6f0eb (MD5) | en |
| dc.description.provenance | Made available in DSpace on 2026-04-06T19:06:00Z (GMT). No. of bitstreams: 1 KRZYZANIAK.pdf: 1364370 bytes, checksum: 955a27214107c96f94b9698f4ae6f0eb (MD5) Previous issue date: 2025 | en |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal da Fronteira Sul | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.department | Campus Chapecó | pt_BR |
| dc.publisher.initials | UFFS | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.subject | Inteligência artificial | pt_BR |
| dc.subject | Documentos | pt_BR |
| dc.subject | Esquemas | pt_BR |
| dc.subject | Modelagem de dados | pt_BR |
| dc.subject | Informação jurídica | pt_BR |
| dc.title | Extração de esquemas em documentos legais não estruturados utilizando LLMs | pt_BR |
| dc.type | Monografia | pt_BR |
| Appears in Collections: | Ciência da Computação | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| KRZYZANIAK.pdf | 1.33 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.