Avaliação da sensibilidade de métricas de avaliação de tópicos

Campagnolo, João Marcos

Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/2701

Tipo:	Monografia
Título:	Avaliação da sensibilidade de métricas de avaliação de tópicos
Autor(es):	Campagnolo, João Marcos
Primeiro Orientador:	Duarte, Denio
Resumo:	A crescente tendência de armazenar todo o conhecimento e conteúdo produzido de forma digital diﬁculta cada vez mais a tarefa de buscar e organizar as informações. Os algoritmos de modelagem de tópicos permitem extrair temas/assuntos, em forma de tópicos, de vastas coleções de documentos. Um documento, que pode ser curto ou longo, pode ser deﬁnido como uma mistura de tópicos, que são um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Avaliar a qualidade de um tópico é uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, métodos computacionais, conhecidos como métricas de coerência, são utilizados para medir a qualidade de tópicos a partir da co-ocorrência entre as palavras que os compõem. Porém, diferentes métricas podem gerar diferentes resultados quando aplicadas a um mesmo tópico. Neste trabalho será realizada uma avaliação da sensibilidade de algumas dessas métricas, aplicando-as em um conjunto de tópicos que foram criados, deturpados através da inserção de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a métrica CUCI se mostrou ser a mais sensível, enquanto as métricas CV e CUMASS se mostraram as menos sensíveis.
Abstract/Resumen:	The growing tendency of store all the knowledge and content produced digitally makes it increasingly difﬁcult to ﬁnd all this information and organize it. Topical modeling algorithms allows to extract topics from vast collections of documents. A document, which maybe short or long, can be deﬁned as a mixture of topics, which are a set of words sorted by their probability ofoccurrence. Evaluating the quality of a topic is atask that can be simple for humans,al though it is very expensive when dealing with large amounts of data. Thus, computational methods, known as coherence metrics, are used to measure the quality of topics from the co-occurrence between the words that compose them. However, different metrics can generate different results when applied to the same topic. This work will evaluate the sensitivity of some of these metrics by applying them to a set of topics that have been created, adulterated by inserting intrusive words, and validated by humans. As result, in general, the metric CUICI was shown to be the most sensitive, while the metrics CV and CUMASS were shown to be the least sensitive.
Palavras-chave:	Algoritmos Geometria e modelagem computacional Métricas de sofware
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal da Fronteira Sul
Sigla da Instituição:	UFFS
Faculdade, Instituto ou Departamento:	Campus Chapecó
Tipo de Acesso:	Acesso Aberto
URI:	https://rd.uffs.edu.br/handle/prefix/2701
Data do documento:	2018
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CAMPAGNOLO.pdf		5,45 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas