Clustering é a organização de pontos de dados em clusters, onde os pontos de dados em um cluster são mais semelhantes entre si do que os pontos de dados em outros clusters. A ideia geral por trás do clustering é que itens de dados semelhantes devem ser agrupados. O agrupamento de dados é um aprendizado não supervisionado, o que significa que não requer dados rotulados.
O agrupamento pode ser benéfico para compreender a estrutura de um conjunto de dados, encontrar semelhanças entre itens de dados, identificar valores discrepantes e reduzir a dimensionalidade dos dados. É comumente usado em diversas áreas, como aprendizado de máquina, mineração de dados, bioinformática e processamento de imagens.
Etapas: 1. Preparação de dados
2. Selecionando uma medida de distância
3. Escolha do número de clusters
4. Agrupamento
5. Avaliando o Clustering