Uma abordagem Transfer-learning para agrupamento de dados

Pereira, Igor Avila

Abstract:

 
Na vida cotidiana, as pessoas agrupam objetos de forma inconsciente, sem saber exatamente como a seleção de objetos que compõem um determinado grupo é feita. Assim, é uma característica da aprendizagem humana considerar o conhecimento obtido a partir de grupos anteriores para gerar novos agrupamentos. No entanto, a maioria dos algoritmos de agrupamento não considera esse tipo de conhecimento prévio. Neste contexto, este trabalho propõe um novo algoritmo de agrupamento que aplica técnica de Transfer Learning, a fim de transferir o conhecimento de agrupamentos anteriores para um agrupamento futuro. Todo dataset incorporado é submetido a um processo de pré-processamento, que combina as instâncias em pares e mapeia seus atributos em novas características, a fim de que esteja em um domínio comum. Em uma etapa de treinamento, aplica-se um classificador que extrai o conhecimento presente nos datasets. Deste modo, o conhecimento extraído dos datesets anteriores é repassado à tarefa de agrupar um novo dataset. Assim, a transferência de conhecimento contribui para o processo de formação de grupos, melhorando o resultado final do agrupamento. Experimentos foram realizados com dois conjuntos de datasets. O primeiro contém 10 datasets e o segundo 5 datasets. No primeiro conjunto, há datasets com diferentes atributos e número de instâncias. Todavia, o segundo conjunto possui apenas datasets de mesmas dimensões (dois atributos) e número de instâncias diferentes. Para ambos, utilizou-se o procedimento de validação cruzada. A cada iteração, um dataset do conjunto era definido com sendo o dataset teste, ou seja, que se deseja agrupar e os demais eram utilizados como bases auxiliares de conhecimento. No conjunto de 10 datasets aplicou-se um classificador baseado em árvores de decisão e, para o segundo conjunto um classificador baseado em regressão logística.
 
In everyday life, people group objects unconsciously, without knowing exactly how the selection of objects that comprise a given group is made. Thus, it is a characteristic of human learning to consider the knowledge gained from earlier groups to generate new clusters. However, most clustering algorithms do not consider this type of prior knowledge. In this context, this work proposes a new clustering algorithm applying the Learning Transfer techniques in order to transfer knowledge from previous partitions for a future partition. The datasets undergo a process of pre-processing that combines instances in pairs and maps their attributes into new features in order to be in a homogeneous domain. In a training phase, we apply a classifier that extracts the datasets knowledge. Thus, the knowledge extracted from previous datesets is passed to the task of clustering a new dataset. The knowledge transfer process contributes to the formation of groups, improving the outcome of the clustering algorithm. Experiments were performed with two sets of datasets. The first contains 10 datasets and the second 5 datasets. In the first set there are datasets with different attributes and number of instances. However, the second set has only datasets with the same dimensions (two attributes) and different number of instances. For both used the cross-validation procedure. At each iteration, a dataset was defined with the set and the test dataset, that is, a dataset we want cluster and others were used as auxiliary knowledge bases. In all 10 datasets a classifier based on decision trees was applied, and for the second set, a classifier based on logistic regression was employed.
 

Show full item record

 

Files in this item

This item appears in the following Collection(s)

:

  • C3 - Mestrado em Engenharia da Computação