Por favor, use este identificador para citar o enlazar este ítem:
https://rd.uffs.edu.br/handle/prefix/9170Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.contributor.advisor1 | Dal Bianco, Guilherme | - |
| dc.creator | Catanio, Maurício | - |
| dc.date | 2025-12-12 | - |
| dc.date.accessioned | 2026-03-25T13:23:30Z | - |
| dc.date.available | 2026 | - |
| dc.date.available | 2026-03-25T13:23:30Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | https://rd.uffs.edu.br/handle/prefix/9170 | - |
| dc.description.abstract | Retrieval-Augmented Generation (RAG) systems enhance the reliabi- lity of Large Language Models (LLMs) by grounding responses in external sources. However, RAG effectiveness critically depends on the information retrieval (IR) com- ponent, whose behavior in specific technical domains remains underexplored. This work conducts an experimental and qualitative investigation of the factors influencing the performance of lexical (BM25, TF-IDF), dense (specialized embeddings), and hy- brid (SPLADE) retrievers in a real-world case: a question-answering system for the Computer Science Course Pedagogical Project (PPC) at UFFS. Results demonstrate that, in this normative domain, traditional lexical methods performed equally or supe- riorly to more complex neural approaches. The analysis further revealed: (i) structural biases in synthetic evaluation datasets, which artificially inflate metrics for term-based methods; and (ii) significant practical limitations in transferring the hybrid SPLADE model to Brazilian Portuguese, due to noisy lexical expansions. The study highlights that the choice of IR method must consider the intrinsic characteristics of the target domain, challenging the assumed automatic superiority of neural approaches. | pt_BR |
| dc.description.resumo | Sistemas de Recuperação Aprimorada Generativa (RAG) aumentam a confiabilidade de Modelos de Linguagem de Grande Escala (LLMs) ao fundamentar suas respostas em fontes externas. Contudo, a eficácia do RAG depende criticamente do componente de recuperação de informação (RI), cujo comportamento em domínios técnicos per- manece pouco explorado. Este trabalho realiza uma investigação experimental e qua- litativa dos fatores que influenciam o desempenho de recuperadores léxicos (BM25, TF-IDF), densos (embeddings especializados) e híbridos (SPLADE) no contexto de um caso real: um sistema de perguntas e respostas sobre o Projeto Pedagógico do Curso (PPC) de Ciência da Computação da UFFS. Os resultados demonstram que, neste domínio normativo, métodos léxicos tradicionais apresentaram desempenho su- perior ou equivalente ao de abordagens neurais mais complexas. A análise revelou ainda: (i) vieses estruturais em datasets sintéticos de avaliação, que inflam artificial- mente as métricas de métodos baseados em termos; e (ii) limitações práticas significa- tivas na transferência do modelo híbrido SPLADE para o português brasileiro, devido a expansões lexicais ruidosas. O estudo evidencia que a escolha do método de RI deve considerar as características intrínsecas do domínio-alvo, desafiando a pressuposição de superioridade automática das abordagens neurais. | pt_BR |
| dc.description.provenance | Submitted by Biblioteca Chapeco (biblio.ch@uffs.edu.br) on 2026-03-24T14:06:58Z No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5) | en |
| dc.description.provenance | Approved for entry into archive by DIONE ROSSI FARIAS (dione@uffs.edu.br) on 2026-03-25T13:23:30Z (GMT) No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5) | en |
| dc.description.provenance | Made available in DSpace on 2026-03-25T13:23:30Z (GMT). No. of bitstreams: 1 CATANIO.pdf: 491451 bytes, checksum: 936289910ad415536e0651bf73eb96e7 (MD5) Previous issue date: 2025 | en |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal da Fronteira Sul | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.department | Campus Chapecó | pt_BR |
| dc.publisher.initials | UFFS | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.subject | Recuperação da informação | pt_BR |
| dc.subject | Inteligência artificial | pt_BR |
| dc.subject | Processamento de linguagem natural | pt_BR |
| dc.subject | Currículo de ensino superior | pt_BR |
| dc.title | RAG em domínio normativo: avaliação de recuperadores e diagnóstico de viés em dados sintéticos do PPC-CC | pt_BR |
| dc.type | Monografia | pt_BR |
| Aparece en las colecciones: | Ciência da Computação | |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| CATANIO.pdf | 479.93 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.