Extraindo padrões de dados, também conhecidos como
mineração de padrões ou
Descoberta de conhecimento , é um processo multifacetado que geralmente envolve estas etapas:
1. Coleta e preparação de dados: *
coleta de dados: Isso envolve a aquisição dos dados brutos de várias fontes, que podem incluir bancos de dados, arquivos, sensores, raspagem na web etc. A qualidade e a quantidade de dados afetam significativamente o sucesso da extração de padrões.
*
Limpeza de dados: Essa etapa crucial envolve o manuseio de valores ausentes (imputação ou remoção), lidando com outliers (remoção ou transformação) e corrigindo inconsistências ou erros nos dados. Técnicas de redução de ruído também podem ser empregadas.
*
Transformação de dados: Isso envolve a conversão dos dados em um formato adequado para algoritmos de mineração de padrões. Isso pode incluir normalização (recursos de dimensionamento para um intervalo semelhante), engenharia de recursos (criando novos recursos a partir dos existentes) ou redução da dimensionalidade (reduzindo o número de recursos, preservando informações importantes).
2. Mineração de padrões: Esta é a etapa principal em que os algoritmos são aplicados para descobrir padrões. A escolha do algoritmo depende do tipo de dados e do tipo de padrões que estão sendo procurados. Técnicas comuns incluem:
*
Mineração de padrões frequentes: Algoritmos como APriori, FP-crescimento e eclat encontram itens frequentes em dados transacionais (por exemplo, análise da cesta de mercado).
*
Mineração de regra da associação: Esses algoritmos (como APORII e FP-GROWTH) se baseiam na mineração de padrões frequentes para descobrir regras que descrevem as relações entre os itens (por exemplo, "os clientes que compraram X também compraram y").
*
Clustering: Algoritmos como K-Means, Clustering Hierárquico e DBSCAN Group Group Data Shift Points, revelando clusters ou segmentos dentro dos dados.
* Classificação
: Algoritmos como árvores de decisão, máquinas vetoriais de suporte (SVMs) e ingênuos Bayes construem modelos para prever os resultados categóricos com base em recursos de entrada (por exemplo, classificar os clientes como alto ou baixo risco).
*
Regressão: Algoritmos como regressão linear, regressão polinomial e regressão vetorial de suporte preveem resultados contínuos com base nos recursos de entrada (por exemplo, prevendo os preços das casas).
*
mineração de padrões seqüenciais: Algoritmos como GSP (padrões seqüenciais generalizados) descobrem padrões em dados seqüenciais (por exemplo, encontrando sequências comuns de eventos no histórico de navegação na web).
*
Mineração de gráfico: Os algoritmos descobrem padrões e estruturas em dados estruturados por gráficos (por exemplo, redes sociais, redes biológicas).
*
Detecção de anomalia: Técnicas como SVM de uma classe e florestas de isolamento identificam pontos de dados incomuns ou externos que se desviam significativamente da norma.
3. Avaliação e interpretação de padrões: *
Significado do padrão: Avaliando a significância estatística dos padrões descobertos para garantir que eles não sejam apenas ocorrências aleatórias. Métricas como apoio, confiança e elevação são frequentemente usadas na mineração de regras de associação.
*
Visualização do padrão: Usando gráficos, gráficos e outras ferramentas visuais para representar e interpretar os padrões descobertos de maneira eficaz, facilitando a compreensão e a comunicação.
*
Validação do padrão: Testando os padrões descobertos em novos dados para avaliar sua generalização e robustez.
4. Representação do conhecimento e insights acionáveis: *
Representação do conhecimento: Formulando os padrões descobertos em uma forma clara e concisa, geralmente usando regras, modelos ou visualizações.
*
Insights acionáveis: Transformando os padrões descobertos em insights acionáveis que podem informar a tomada de decisão, melhorar os processos ou criar novos produtos ou serviços.
Todo o processo é iterativo. Os resultados de uma etapa podem influenciar as escolhas feitas nas etapas subsequentes. Por exemplo, a avaliação dos padrões descobertos pode levar a refinamentos na preparação de dados ou na escolha do algoritmo de mineração de padrões. O processo requer experiência em ciência de dados, estatísticas e conhecimento de domínio para garantir que padrões significativos e relevantes sejam extraídos.