Clustering é uma técnica de aprendizado de máquina opera agrupando dados semelhantes juntos. Clustering é um tipo de aprendizado de máquina sem supervisão. O algoritmo não precisa ser "treinado" e agrupar dados lata em grupos coerentes com uma noção " pré-concebido " do que pertence juntos. Isso é diferente de sistemas de aprendizado de máquina supervisionado que deve ser " treinado " para os dados da etiqueta corretamente. Clustering é usado principalmente como um mecanismo de reconhecimento de padrões computador. Algoritmos de agrupamento algoritmos baseados Generative ou Probabilidade
Generative ou probabilidade baseados tentar classificar conjuntos de dados como uma espécie de distribuição conhecido , um agrupamento comum de dados numéricos. Este tipo de algoritmo pode ser usado apenas em dados numéricos . Algoritmos generativos vêm com várias ressalvas. O problema pode ser insolúvel , se os dados são permitidos variar muito livremente . Algoritmos generativos também assumir que os dados incorpora uma distribuição conhecida , o que não é sempre verdadeira . Estes tipos de algoritmos também não conta para o "ruído" nos dados.
K- means clustering
agrupamento k-means foi um dos primeiros métodos de agrupamento para ser desenvolvido . É simples de implementar, no entanto, tem a desvantagem de ser extremamente sensível às suas entradas de partida . K- significa obras de clustering , dividindo os dados em um conjunto aleatório de clusters e , em seguida, recalcular os pontos médios de cada grupo e repetir o processo até que haja apenas um cluster. Isto é conhecido como convergência .
Clustering Difusa
Em vez de identificar dados como pertencentes a grupos específicos , agrupamento difuso tenta identificar o grau em que um conjunto de dados ponto pertence a um grupo . Os algoritmos que são usados para fazer agrupamento difuso são conhecidos como " C -means algoritmos . " Na abordagem de agrupamento difuso , um ponto de dados pode pertencer a mais de um grupo . Este tipo de agrupamento é útil quando os pontos de dados pode precisar de pertencer a mais de um grupo.
Aglomerativa Clustering
aglomerativa agrupamento foi um dos primeiros algoritmos de agrupamento para ser desenvolvido . Ele permanece em uso , como é também um dos mais simples algoritmos desenvolvidos até à data . Agrupamento aglomerativo trabalha tratando cada ponto de dados individuais como um cluster e agrupando -a com o ponto de dados mais similar. Este processo é repetido até que os dados " converge ", ou há um grande aglomerado contendo todos os dados . O processo também pode ser realizado no sentido inverso para o mesmo efeito . Começando com um cluster, todos os dados podem ser divididos repetidamente até que cada ponto de dados é o seu próprio cluster.