RAG em domínio normativo: avaliação de recuperadores e diagnóstico de viés em dados sintéticos do PPC-CC

Catanio, Maurício

Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/9170

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor1	Dal Bianco, Guilherme	-
dc.creator	Catanio, Maurício	-
dc.date	2025-12-12	-
dc.date.accessioned	2026-03-25T13:23:30Z	-
dc.date.available	2026	-
dc.date.available	2026-03-25T13:23:30Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://rd.uffs.edu.br/handle/prefix/9170	-
dc.description.abstract	Retrieval-Augmented Generation (RAG) systems enhance the reliabi- lity of Large Language Models (LLMs) by grounding responses in external sources. However, RAG effectiveness critically depends on the information retrieval (IR) com- ponent, whose behavior in specific technical domains remains underexplored. This work conducts an experimental and qualitative investigation of the factors influencing the performance of lexical (BM25, TF-IDF), dense (specialized embeddings), and hy- brid (SPLADE) retrievers in a real-world case: a question-answering system for the Computer Science Course Pedagogical Project (PPC) at UFFS. Results demonstrate that, in this normative domain, traditional lexical methods performed equally or supe- riorly to more complex neural approaches. The analysis further revealed: (i) structural biases in synthetic evaluation datasets, which artificially inflate metrics for term-based methods; and (ii) significant practical limitations in transferring the hybrid SPLADE model to Brazilian Portuguese, due to noisy lexical expansions. The study highlights that the choice of IR method must consider the intrinsic characteristics of the target domain, challenging the assumed automatic superiority of neural approaches.	pt_BR
dc.description.resumo	Sistemas de Recuperação Aprimorada Generativa (RAG) aumentam a confiabilidade de Modelos de Linguagem de Grande Escala (LLMs) ao fundamentar suas respostas em fontes externas. Contudo, a eficácia do RAG depende criticamente do componente de recuperação de informação (RI), cujo comportamento em domínios técnicos per- manece pouco explorado. Este trabalho realiza uma investigação experimental e qua- litativa dos fatores que influenciam o desempenho de recuperadores léxicos (BM25, TF-IDF), densos (embeddings especializados) e híbridos (SPLADE) no contexto de um caso real: um sistema de perguntas e respostas sobre o Projeto Pedagógico do Curso (PPC) de Ciência da Computação da UFFS. Os resultados demonstram que, neste domínio normativo, métodos léxicos tradicionais apresentaram desempenho su- perior ou equivalente ao de abordagens neurais mais complexas. A análise revelou ainda: (i) vieses estruturais em datasets sintéticos de avaliação, que inflam artificial- mente as métricas de métodos baseados em termos; e (ii) limitações práticas significa- tivas na transferência do modelo híbrido SPLADE para o português brasileiro, devido a expansões lexicais ruidosas. O estudo evidencia que a escolha do método de RI deve considerar as características intrínsecas do domínio-alvo, desafiando a pressuposição de superioridade automática das abordagens neurais.	pt_BR
dc.description.provenance	Submitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-03-24T14:06:58Z No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5)	en
dc.description.provenance	Approved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-03-25T13:23:30Z (GMT) No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5)	en
dc.description.provenance	Made available in DSpace on 2026-03-25T13:23:30Z (GMT). No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5) Previous issue date: 2025	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Fronteira Sul	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Campus Chapecó	pt_BR
dc.publisher.initials	UFFS	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Recuperação da informação	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Currículo de ensino superior	pt_BR
dc.title	RAG em domínio normativo: avaliação de recuperadores e diagnóstico de viés em dados sintéticos do PPC-CC	pt_BR
dc.type	Monografia	pt_BR
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CATANIO.pdf		479,93 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas