Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)

Bianchini, Leonardo

Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/2096

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor1	Duarte, Denio	-
dc.creator	Bianchini, Leonardo	-
dc.date	2018-07-03	-
dc.date.accessioned	2018-08-30T18:50:26Z	-
dc.date.available	2018-08-30T18:50:26Z	-
dc.date.issued	2018	-
dc.identifier.uri	https://rd.uffs.edu.br/handle/prefix/2096	-
dc.description.abstract	Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by the collection. Documents can be generated from different distributions on topics, the topics being formed by a probabilistic distribution of words. To infer the set of topics that generated a collection of documents, apply probabilistic techniques that make the process reverse. In this work, an exploratory analysis is performed in the Stack Overflow database, and for this purpose, it is used the topic modeling to extract the desired information, applying the Latent Dirichlet Allocation (LDA) to extract the topics from the database. As a result, the topics that represent the collection are obtained, with more recurring themes related to web programming, textit mobile, and version control. In addition, the values of topics are compared, evaluated from metrics that verify the coherence of their words, identifying, among the analyzed values, the number of 50 topics with the best results to represent the collection	pt_BR
dc.description.resumo	A modelagem de tópicos é um problema de aprendizado de máquina, que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados pela coleção. Os documentos podem ser gerados a partir de diferentes distribuições sobre tópicos, sendo os tópicos formados por uma distribuição probabilística de palavras. Para inferir o conjunto de tópicos que geraram uma coleção de documentos, usam-se técnicas probabilísticas que fazem o processo reverso. Nesse trabalho, realiza-se uma análise exploratória na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de tópicos para a extração das informações desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os tópicos da base de dados. Como resultado, são obtidos os tópicos que representam a coleção, sendo mais recorrentes assuntos ligados à programação web, mobile e controle de versão. Além disso, são comparados os valores de tópicos, avaliados a partir de métricas que verificam a coerência entre suas palavras, identificando, dentre os valores analisados, o número de 50 tópicos com os melhores resultados para representar a coleção.	pt_BR
dc.description.provenance	Submitted by ADAIR PERDOMO FALCÃO (adair.falcao@uffs.edu.br) on 2018-08-29T16:16:23Z No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)	en
dc.description.provenance	Approved for entry into archive by Diego dos Santos Borba (dborba@uffs.edu.br) on 2018-08-30T18:50:26Z (GMT) No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5)	en
dc.description.provenance	Made available in DSpace on 2018-08-30T18:50:26Z (GMT). No. of bitstreams: 1 BIANCHINI.pdf: 1694582 bytes, checksum: fd05ab6f2bbedf16fe4f84e2b7c4d15b (MD5) Previous issue date: 2018	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal da Fronteira Sul	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Campus Chapecó	pt_BR
dc.publisher.initials	UFFS	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Mineração de dados	pt_BR
dc.subject	Representação descritiva	pt_BR
dc.title	Análise exploratória dos tópicos no Stack Overflow usando LDA (Latent Dirichlet Allocation)	pt_BR
dc.type	Monografia	pt_BR
Aparece nas coleções:	Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
BIANCHINI.pdf		1,65 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas