As árvores de decisão são objecto de estudo académico intenso nas áreas de operações de pesquisa e ciência da computação. Embora não seja necessariamente a melhor forma de estruturar as informações necessárias para chegar a uma conclusão , árvores de decisão funcionam bem com algoritmos de computador padrão para apoio à decisão. Além disso, eles fornecem um método de expressar as regras de negócios de uma forma que as pessoas com nenhuma experiência prévia com árvores de decisão são capazes de seguir . Uma árvore de decisão é um semelhante a um fluxograma , permitindo a navegação por meio de um caminho de escolhas até uma conclusão final seja alcançado. Coisas que você precisa
Conjunto de dados para "aprender " a estrutura da árvore
Conjunto de dados para testes , resultando árvore
Show Mais instruções
1
Obtenha os conjuntos de dados que vai ser utilizado para a análise e verificação da árvore final . Mais dados utilizados na análise irá produzir uma representação de árvore mais preciso do processo de decisão . Há muitas maneiras diferentes de criar e estruturar uma árvore de decisão. O algoritmo ID3 é uma abordagem precoce sobre o qual variações mais sofisticadas foram baseadas .
2
Lista de todos os atributos que são utilizados pelo conjunto de dados. Por exemplo, em um conjunto de dados de aplicativo de empréstimo bancário , o registro de cada candidato irá incluir atributos como saldos nome, endereço, telefone , renda , valor casa, hipotecas , bancos e cartões de crédito.
Se criar manualmente uma árvore de decisão , naturalmente excluir atributos como nome, que você não esperaria de influenciar a decisão de conceder um empréstimo. Ao utilizar técnicas de mineração de dados de computador , todos os atributos são considerados , deixando o programa de computador para determinar quais os que não têm nenhuma relevância para o resultado final .
3
Especifique qual atributo é o atributo de destino . No exemplo de um pedido de empréstimo , o atributo de destino é aquele que indica se o empréstimo foi concedido ou negado.
4
Selecione o atributo para proporcionar o maior ganho de informação para o uso como o nó raiz . A árvore é composta por nós de decisão e nós folha . No nós de decisão , um ramo é criado para cada valor possível do atributo de destino . Cada ramo representa os registros de dados que compartilham o mesmo valor para o atributo alvo.
Um nó folha é alcançado quando todos os registros que estão sendo considerados no nó atual tem o mesmo resultado para o atributo de destino . No exemplo de empréstimo, se todos que se aplica para um empréstimo é aprovado , toda a árvore de decisão é o caso trivial de um nó de folha única , sem ramificações. É mais provável que os dados serão divididos em dois ramos : . Aprovado e negou
métodos de cálculo selecionando o atributo para usar a qualquer nó da árvore são extremamente complexas. Procure o atributo que prediz mais fortemente o resultado alvo. Intuitivamente, " renda " seria um candidato melhor para o nó raiz do que " primeiro nome".
5
Remova o atributo raiz da lista de atributos potencial para usar para os nós do ramo . Selecione o atributo restante com o maior ganho de informação para atribuir aos nós do ramo .
No exemplo atual, os nós de ramificação em cada ponto na árvore de criar ramos de empréstimos aprovados e negados. Não pode haver qualquer número de ramos provenientes de um nó de árvore de decisão, dependendo de quantos valores possíveis pode ser atribuído ao atributo alvo.
6
Repita o processo ao longo de todos os ramos , até que você tenha atingido uma folha nó onde todos os dados compartilha o mesmo valor para o atributo alvo. A profundidade máxima da árvore em qualquer ponto será o número total de atributos identificados no início.
É provável que nem todos os atributo é relevante para a decisão em todos os ramos e assim por alguns ramos será menor . Depois de ter concluído a árvore, atravessá-la a encontrar as regras que tem derivados . Por exemplo, você pode achar que um " empréstimo será aprovado se você tem um salário alto , poupança elevada e nenhuma dívida . "
7
Use os dados de teste definidos para validar a árvore criado. A árvore deve prever com precisão os resultados dos novos dados.