Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)

Bianchini, Leonardo

Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/2096

Tipo:	Monografia
Título:	Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)
Autor(es):	Bianchini, Leonardo
Primeiro Orientador:	Duarte, Denio
Resumo:	A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.
Abstract/Resumen:	Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by the collection. Documents can be generated from different distributions on topics, the topics being formed by a probabilistic distribution of words. To infer the set of topics that generated a collection of documents, apply probabilistic techniques that make the process reverse. In this work, an exploratory analysis is performed in the Stack Overflow database, and for this purpose, it is used the topic modeling to extract the desired information, applying the Latent Dirichlet Allocation (LDA) to extract the topics from the database. As a result, the topics that represent the collection are obtained, with more recurring themes related to web programming, textit mobile, and version control. In addition, the values of topics are compared, evaluated from metrics that verify the coherence of their words, identifying, among the analyzed values, the number of 50 topics with the best results to represent the collection
Palavras-chave:	Mineração de dados Representação descritiva
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal da Fronteira Sul
Sigla da Instituição:	UFFS
Faculdade, Instituto ou Departamento:	Campus Chapecó
Tipo de Acesso:	Acesso Aberto
URI:	https://rd.uffs.edu.br/handle/prefix/2096
Data do documento:	2018
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
BIANCHINI.pdf		1,65 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas