Title: Utilização de modelagem de tópicos para identificar os assuntos mais discutidos sobre o Haiti no twitter
Resume: Com o crescimento do acesso a internet da população mundial, grandes volumes de dados, principalmente no formato de textos, estão sendo compartilhados diariamente. Seja por meio de redes sociais, blogs ou fóruns, esses dados (ou coleção de documentos) circulam na web de forma contínua pelos usuários. O Twitter é um dos meios mais utilizados pelos internautas para disseminação de informação através de postagens. Essas postagens, chamadas tweets, podem ser analisadas, interpretadas, compreendidas ou classificadas em grupos. Por serem compartilhados em quantidade enorme, foi-se necessário a utilização de técnicas de modelagem de tópicos, conjunto de algoritmos que ajudam a agrupar coleção de documentos em tópicos. Postoisso, nestetrabalho, foiutilizadoaLatentDirichletAllocation(LDA),comoabordagemde modelagem de tópicos, em tweets discutidos sobre o Haiti em língua portuguesa durante janeiro de 2018 a maio de 2022 para descobrir os assuntos mais recorrentes. A coleção do experimento foi dividida em 53 meses para um melhor proveito dos resultados. Os resultados obtidos são apresentados por meio de tabelas e gráficos e são discutidos mensalmente a cada ano. Através dessesresultados, épossívelconstatarosassuntosmaisdiscutidosduranteosperíodosdefinidos
Abstract: With the growth of internet access by the world’s population, large volumes of data, mainly in text format, are being shared daily. Whether through social networks, blogs or forums, this data (or collection of documents) is continuously circulated on the web by users. Twitter is one of the most used means by Internet users to disseminate information through posts. These posts, called tweets, can be analyzed, interpreted, understood or classified into groups. Because they are shared in huge numbers, it was necessary to use topic modeling techniques, a set of algorithms that help group collections of documents into topics. That said, in this work, Latent Dirichlet Allocation (LDA), as a topic modeling approach, was used on tweets discussed about Haiti in Portuguese language during January 2018 to May 2022 to discover the most recurring topics. The experiment collection was divided into 53 months for a better use of the results. The results obtained are presented through tables and graphs and are discussed monthly each year. Through these results, it is possible to see the most discussed subjects during the defined periods.
Issue Date: 16-Aug-2022
