Please use this identifier to cite or link to this item:
https://rd.uffs.edu.br/handle/prefix/2701
Type: | Monografia |
Title: | Avaliação da sensibilidade de métricas de avaliação de tópicos |
Author: | Campagnolo, João Marcos |
First advisor: | Duarte, Denio |
Resume: | A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital dificulta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis. |
Abstract: | The growing tendency of store all the knowledge and content produced digitally makes it increasingly difficult to find all this information and organize it. Topical modeling algorithms allows to extract topics from vast collections of documents. A document, which maybe short or long, can be defined as a mixture of topics, which are a set of words sorted by their probability ofoccurrence. Evaluating the quality of a topic is atask that can be simple for humans,al though it is very expensive when dealing with large amounts of data. Thus, computational methods, known as coherence metrics, are used to measure the quality of topics from the co-occurrence between the words that compose them. However, different metrics can generate different results when applied to the same topic. This work will evaluate the sensitivity of some of these metrics by applying them to a set of topics that have been created, adulterated by inserting intrusive words, and validated by humans. As result, in general, the metric CUICI was shown to be the most sensitive, while the metrics CV and CUMASS were shown to be the least sensitive. |
Keywords: | Algoritmos Geometria e modelagem computacional Métricas de sofware |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal da Fronteira Sul |
Acronym of the institution: | UFFS |
College, Institute or Department: | Campus Chapecó |
Type of Access: | Acesso Aberto |
URI: | https://rd.uffs.edu.br/handle/prefix/2701 |
Issue Date: | 2018 |
Appears in Collections: | Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CAMPAGNOLO.pdf | 5.45 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.