Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/3371
Tipo: Monografia
Título: Análise exploratória de tweets utilizando modelagem de tópicos para textos curtos: caso Olimpíadas Rio 2016
Autor(es): Pereira, Mariana
Primeiro Orientador: Duarte, Denio
Resumo: A modelagem de tópicos é uma forma de mineração de texto que visa extrair, dada uma coleção de documentos, os principais tópicos que representem os assuntos abordados nos documentos da coleção. Um documento, que pode ser curto ou longo, pode ser definido como uma mistura de tópicos, sendo um conjunto de palavras ordenadas por suas probabilidades de ocorrência. Abordagens convencionais de modelagem de tópicos como LDAe PSLA foram desenvolvidas para serem aplicadas em documentos longos e, quando aplicados em textos curtos, não são tão eficientes pelo fato de não conseguir lidar bem com a dispersão dos dados. Sendo assim, para a extração de tópicos em textos curtos, se faz necessário a utilização de modelos de tópicos específicos para tal. Posto isso, neste trabalho será realizada uma análise exploratória na base de dados do Twitter, fazendo a utilização do modelo BTM (Biterm Topic Model) para descobrir os principais tópicos discutidos durante o período das Olimpíadas Rio 2016. Como resultado, os tópicos obtidos representaram a coleção e refletiram os acontecimentos ocorridos nos Jogos Olímpicos, principalmente os que fizeram referência ao Brasil.
Abstract/Resumen: Topic modeling is a data mining problem that aims to extract, given a document collection, the main topics that represent the subjects covered in the collection documents. A document, which can be short or long, can be defined as a mixture of topics, being a set of words ordered by their probability of occurrence. Conventional approaches for topic modeling such as LDA and PSLA have been used in long documents and when used it in short texts may not work well since conventional topic models suffer from the severe data sparsity. So, in this paper, an exploratory analysis is performed in the Twitter database applying the Biterm Topic Model (BTM) to discover the main topics discussed during the Rio 2016 Olympic Games. As a result, the topics obtained represents the collection of documents and reflects the events that occurred at the Olympic Games, especially those that made reference to Brazil.
Palavras-chave: Geometria e modelagem computacional
Mineração de dados
Redes sociais
Idioma: por
País: Brasil
Instituição: Universidade Federal da Fronteira Sul
Sigla da Instituição: UFFS
Faculdade, Instituto ou Departamento: Campus Chapecó
Tipo de Acesso: Acesso Aberto
URI: https://rd.uffs.edu.br/handle/prefix/3371
Data do documento: 2019
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
PEREIRA.pdf5.19 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.