Use este identificador para citar ou linkar para este item: https://rd.uffs.edu.br/handle/prefix/4647
Tipo: Monografia
Título: Seleção de amostras de dados menos representativas usando aprendizado ativo
Autor(es): Acordi, Marcelo
Primeiro Orientador: Dal Bianco, Guilherme
Primeiro membro da banca: Duarte, Denio
Segundo membro da banca: Padilha, Adriano Sanick
Resumo: Dados estão cada vez mais disponíveis de serem coletados e armazenados, consequência da grande quantidade produzida por diversos dispositivos interconectados. Tais dados podem, por exemplo, serem usados em tarefas de aprendizado supervisionado, cujo objetivo é prever um comportamento com base nos dados rotulados, previamente fornecidos. Métodos supervisionados são utilizados no contexto de classificação de informações, como por exemplo classificar se um e-mail é SPAM ou não, ou categorizar documentos de texto em categorias predefinidas - esporte, política, etc. Porém caso os dados não apresentarem rótulos, dentro do contexto de aprendizado supervisionado, pode ser difícil sua possibilidade de uso. A rotulagem é um processo que pode ser custoso em questão de tempo ou em recursos financeiros. Dessa forma, encontrar exemplos informativos e representativos pode representar uma redução de custos. Neste contexto, a aprendizagem ativa consiste no estudo de técnicas para redução no número de instâncias presentes no treinamento, selecionando somente as mais informativas para rotulagem. Este trabalho buscou explorar configurações de um algoritmo de aprendizado ativo ambicionando selecionar mais instâncias positivas e a redução da quantidade de instâncias selecionadas. Com os experimentos verificou-se a possibilidade de incremento de instâncias positivas e redução de negativas.
Abstract/Resumen: Data is increasingly available to be collected and stored, a consequence of the large amount produced by several interconnected devices. This data, for example, be used in supervised learning tasks, the purpose of which is to predict behavior based on previously labeled data. Supervised methods are used in the context of classification, such as classifying whether an email is SPAM or not, or categorizing text documents into predefined categories - sports, politics, etc. However, if the data does not have labels, on supervised learning, the possibility of use may be difficult. Labeling is a process that can be costly in a matter of time or financial resources. However, finding informative and representative examples represents a cost reduction. In this context, active learning consists of studying techniques to reduce the number of instances present in the training, selecting only the most informative ones for labeling. This work sought to explore configurations of an active learning algorithm in order to select more instances of the non-dominant class and reduce the total of selected instances. With the experiments, it was possible to increase the non-dominant class instances and reduce the quantity of dominant class instances.
Palavras-chave: Dados
Armazenamento
Aprendizado computacional
Ciência da computação
Idioma: por
País: Brasil
Instituição: Universidade Federal da Fronteira Sul
Sigla da Instituição: UFFS
Faculdade, Instituto ou Departamento: Campus Chapecó
Tipo de Acesso: Acesso Aberto
URI: https://rd.uffs.edu.br/handle/prefix/4647
Data do documento: 10-Mai-2021
Aparece nas coleções:Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
ACORDI.pdf510,08 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.