Avaliação da sensibilidade de métricas de avaliação de tópicos

Campagnolo, João Marcos

Please use this identifier to cite or link to this item: https://rd.uffs.edu.br/handle/prefix/2701

Type:	Monografia
Title:	Avaliação da sensibilidade de métricas de avaliação de tópicos
Author:	Campagnolo, João Marcos
First advisor:	Duarte, Denio
Resume:	A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital diﬁculta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser deﬁnido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis.
Abstract:	The growing tendency of store all the knowledge and content produced digitally makes it increasingly difﬁcult to ﬁnd all this information and organize it. Topical modeling algorithms allows to extract topics from vast collections of documents. A document, which maybe short or long, can be deﬁned as a mixture of topics, which are a set of words sorted by their probability ofoccurrence. Evaluating the quality of a topic is atask that can be simple for humans,al though it is very expensive when dealing with large amounts of data. Thus, computational methods, known as coherence metrics, are used to measure the quality of topics from the co-occurrence between the words that compose them. However, different metrics can generate different results when applied to the same topic. This work will evaluate the sensitivity of some of these metrics by applying them to a set of topics that have been created, adulterated by inserting intrusive words, and validated by humans. As result, in general, the metric CUICI was shown to be the most sensitive, while the metrics CV and CUMASS were shown to be the least sensitive.
Keywords:	Algoritmos Geometria e modelagem computacional Métricas de sofware
Language:	por
Country:	Brasil
Publisher:	Universidade Federal da Fronteira Sul
Acronym of the institution:	UFFS
College, Institute or Department:	Campus Chapecó
Type of Access:	Acesso Aberto
URI:	https://rd.uffs.edu.br/handle/prefix/2701
Issue Date:	2018
Appears in Collections:	Ciência da Computação

Files in This Item:

File	Description	Size	Format
CAMPAGNOLO.pdf		5,45 MB	Adobe PDF	View/Open

Show full item record Recommend this item