Petiano: Guilherme Vinícius Alves Pereira
Orientadora: Patrícia Rufino Oliveira
A proposta apresentada neste projeto de pesquisa consiste no estudo, implementação e avaliação de técnicas de agrupamento para explorar similaridades em dados de natureza química que estão de alguma forma relacionados a atividades biológicas e/ou farmacológicas. Mais especificamente, o método fuzzy c-médias, o método k-médias, e técnicas de agrupamento hierárquico serão aplicados aos dados, considerando diferentes medidas de similaridade.
Utilizando a linguagem de programação Java, o bolsista deverá construir uma ferramenta computacional que reúna técnicas estatísticas de agrupamento e métodos para seleção de atributos e extração de características baseadas em Análise de Componentes Principais (PCA)2. Nesse caso, pretende-se obter um entendimento geral da natureza dos dados e a possível detecção de novas propriedades (novidades) nos dados analisados.
O processo de avaliação dos resultados obtidos deve ainda ser útil para esclarecer questões, tais como: (i) quantos agrupamentos podem ser gerados?; (ii) os agrupamentos obtidos são significativos?; (iii) por que é preferível escolher um determinado algoritmo em detrimento de um outro?