Por favor, use este identificador para citar o enlazar este ítem: https://rd.uffs.edu.br/handle/prefix/9170
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisor1Dal Bianco, Guilherme-
dc.creatorCatanio, Maurício-
dc.date2025-12-12-
dc.date.accessioned2026-03-25T13:23:30Z-
dc.date.available2026-
dc.date.available2026-03-25T13:23:30Z-
dc.date.issued2025-
dc.identifier.urihttps://rd.uffs.edu.br/handle/prefix/9170-
dc.description.abstractRetrieval-Augmented Generation (RAG) systems enhance the reliabi- lity of Large Language Models (LLMs) by grounding responses in external sources. However, RAG effectiveness critically depends on the information retrieval (IR) com- ponent, whose behavior in specific technical domains remains underexplored. This work conducts an experimental and qualitative investigation of the factors influencing the performance of lexical (BM25, TF-IDF), dense (specialized embeddings), and hy- brid (SPLADE) retrievers in a real-world case: a question-answering system for the Computer Science Course Pedagogical Project (PPC) at UFFS. Results demonstrate that, in this normative domain, traditional lexical methods performed equally or supe- riorly to more complex neural approaches. The analysis further revealed: (i) structural biases in synthetic evaluation datasets, which artificially inflate metrics for term-based methods; and (ii) significant practical limitations in transferring the hybrid SPLADE model to Brazilian Portuguese, due to noisy lexical expansions. The study highlights that the choice of IR method must consider the intrinsic characteristics of the target domain, challenging the assumed automatic superiority of neural approaches.pt_BR
dc.description.resumoSistemas de Recuperação Aprimorada Generativa (RAG) aumentam a confiabilidade de Modelos de Linguagem de Grande Escala (LLMs) ao fundamentar suas respostas em fontes externas. Contudo, a eficácia do RAG depende criticamente do componente de recuperação de informação (RI), cujo comportamento em domínios técnicos per- manece pouco explorado. Este trabalho realiza uma investigação experimental e qua- litativa dos fatores que influenciam o desempenho de recuperadores léxicos (BM25, TF-IDF), densos (embeddings especializados) e híbridos (SPLADE) no contexto de um caso real: um sistema de perguntas e respostas sobre o Projeto Pedagógico do Curso (PPC) de Ciência da Computação da UFFS. Os resultados demonstram que, neste domínio normativo, métodos léxicos tradicionais apresentaram desempenho su- perior ou equivalente ao de abordagens neurais mais complexas. A análise revelou ainda: (i) vieses estruturais em datasets sintéticos de avaliação, que inflam artificial- mente as métricas de métodos baseados em termos; e (ii) limitações práticas significa- tivas na transferência do modelo híbrido SPLADE para o português brasileiro, devido a expansões lexicais ruidosas. O estudo evidencia que a escolha do método de RI deve considerar as características intrínsecas do domínio-alvo, desafiando a pressuposição de superioridade automática das abordagens neurais.pt_BR
dc.description.provenanceSubmitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-03-24T14:06:58Z No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5)en
dc.description.provenanceApproved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-03-25T13:23:30Z (GMT) No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5)en
dc.description.provenanceMade available in DSpace on 2026-03-25T13:23:30Z (GMT). No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5) Previous issue date: 2025en
dc.languageporpt_BR
dc.publisherUniversidade Federal da Fronteira Sulpt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus Chapecópt_BR
dc.publisher.initialsUFFSpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectRecuperação da informaçãopt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectCurrículo de ensino superiorpt_BR
dc.titleRAG em domínio normativo: avaliação de recuperadores e diagnóstico de viés em dados sintéticos do PPC-CCpt_BR
dc.typeMonografiapt_BR
Aparece en las colecciones: Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
CATANIO.pdf479.93 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.