ferramentas de armazém e dados de mineração de dados se torna mais fácil de extrair e analisar grandes volumes de informações, mas a qualidade da análise é apenas tão bom quanto a qualidade dos dados. O primeiro passo em qualquer estudo de pesquisa ou dados do projeto de armazenagem deve ser uma avaliação da qualidade dos dados que entram no projeto. Medidas para a integridade, validade e consistência todos fator para essa avaliação. Desenvolver métricas de qualidade de dados, você deve seguir alguns passos. Instruções
1
Desenvolver uma estrutura para medir a qualidade dos dados. Criar espaço em cada banco de dados onde os resultados dos controlos de qualidade podem ser armazenados. Desenvolver relatórios ou painéis de dados.
2
Medida dados completude. Escolha elementos-chave em cada banco de dados e contar o percentual de nulos, campos vazios ou valores que representam dados não disponíveis ou desconhecidos .
3
percentagens medida de valores permitidos. Quando um campo tem um certo número de valores de códigos predefinidos , medir a distribuição destes valores com o número de valores incorrectos e ausentes . Analisar essas distribuições para determinar se certos códigos aparecem com muita freqüência. Se assim for , este valor pode precisar de ser subdivididas para proporcionar uma melhor descrição . Por exemplo, se as respostas são preto, branco e cor e 98 % das respostas são de cor , pode fazer sentido para substituir cores com vermelho, azul ou verde.
4
Verifique para valores razoáveis. Medições numéricas geralmente aparecem em um intervalo permitido . Por exemplo , uma medição diária Fahrenheit temperatura tempo irá geralmente aparece como um valor de cerca de -40 a 120 . Qualquer valor fora desse intervalo não é provavelmente válido.
5
Comparar valores dentro do mesmo registro para a consistência. Se a temperatura foi de 90 graus Fahrenheit eo valor de precipitação é de neve , um dos dois valores é provavelmente incorreta .
6
Verifique a coerência entre os registros relacionados. Use verificações de consistência semelhante entre registros de relações pai-filho e nas múltiplas entradas filho . Relações pai e filho são ligações entre elementos do banco de dados . Por exemplo, em uma série de itens relacionados com o tempo , se um conjunto de horários temperaturas lista medições de temperatura a aumentar entre 50 e 70 graus ao longo da manhã, mas a leitura 10h é de -20 , este valor é provavelmente um erro.
7
Criar relatórios, painéis ou notificações com base nos dados coletados. Resuma pelo grupo organizacional , fornecedor ou tipo de cliente com capacidade de perfurar até elementos de dados específicos . Analisar os dados para determinar onde os erros ocorrem e que pode ser feito para melhorar a qualidade dos dados.
8
Melhorar a qualidade dos dados. Rever as regras de negócio , software de reparação para rejeitar dados ruins , notificar os clientes de problemas de dados e encontrar formas de recompensar iniciativas de qualidade . Monitorar essas medições ao longo do tempo .