Software  
 
Conhecimento computador >> Software >> Software de banco de dados >> 
Teorias de limpeza de dados
Os erros podem ser feitas durante a coleta e integração de dados, e os analistas precisam saber como identificar e corrigir esses erros. Isto é chamado de limpeza de dados , ou de lavagem de dados . Isto não é uma ciência exata , e às vezes a decisão sobre o que fazer se baseia no julgamento do analista , no entanto, ela sabe que não só é importante ter uma quantidade suficiente de dados - deve ser de uma qualidade respeitável , também . Semântica e Formatação

A tarefa de limpeza de dados comum envolve a remoção de erros na formatação. Isso poderia ser algo tão simples como erros ortográficos feitas durante a coleta de dados ou entrada , até problemas com o símbolo usado para entradas separadas . Por exemplo, imagine o seguinte conjunto de dados está dentro de um conjunto de dados onde um apóstrofo é utilizado para entradas separadas :

Bird Watchers ' Club'42 Beacon Street'Boston

Este seria lido como:

Pássaro WatchersClub42 Beacon StreetBoston

consultas e programas automatizados são muitas vezes utilizados para limpar os dados desse erro .
Integração

Alguns conjuntos de dados são muito bem sozinho, mas tornar-se problemática , uma vez que são integrados em um repositório maior ou um data warehouse. Por exemplo , a idade pode ser armazenado como data de nascimento:

dd /mm /AAMM /dd /aaaa

Ou por faixa :

20-30, 30-40 , 40-5015-25 , 25-35 , 35-45

Em alguns casos, como data de nascimento de formatação , é bastante simples de identificar estruturas semânticas e padronizar as entradas. Em casos como as faixas etárias no entanto , as suposições devem ser feitas. Por exemplo, é o número de pessoas com idades entre 25-35 a média das pessoas com idades entre 20-30 e 30-40

Outliers

Outliers são ? os pontos de dados que se encontram longe do resto dos dados . Por exemplo, uma era de 600 , ou um teste de contagem várias vezes maior do que a média . No primeiro caso , você pode seguramente assumir que foi um erro de digitação , mas no segundo não é tão óbvio. Quando você não sabe se um outlier é um erro ou um ponto de dados legítimo, que é o seu julgamento se para removê-la ou não, tendo em conta a finalidade dos dados .
Dados ausentes

Você também deve decidir o que fazer se algum dado está faltando . Primeiro , os padrões devem ser identificados usando consultas e análises estatísticas - a distribuição dos dados em falta determina o que você deve fazer. Por exemplo, se uma pesquisa online tem duas páginas , mas apenas as questões na primeira página foram respondidas , esta informação pode ser usada para ajudar a refinar as formas . Se os dados em falta é distribuída aleatoriamente e está na mesma variável , às vezes é possível fazer estimativas com base no que já é conhecido.

Anterior :

Próximo : No
  Os artigos relacionados
·Vs Simultânea. Uso único ArcGIS 
·Como converter Unicode para não- Unicode no SSIS 
·Diferentes fases do Banco de Dados 
·Como Normalize um ERD 
·O que são correlacionados subconsultas 
·Como teste para a igualdade de duas variâncias em JMP 
·Definição de Programático DataSet Conexão 
·MPP Vs . SMP Banco de Dados 
·GJXDM Protocolo 
·Como saber a hora de início de um Banco de Dados Oracl…
  Artigos em destaque
·Como excluir Norton História 
·O que causa o iTunes para Congelar 
·Como solucionar iTunes Gravação de CD 
·Como hospedar o domínio principal de uma subpasta 
·Como gravar um arquivo MP4 filme para DVD 
·Como gravar um CD de áudio em um DVD em branco 
·Como separar multitracks para Barbershop Música 
·Como fazer backup de seu computador no Windows Vista 
·Como remover um assassino Spam 
·Como remover manualmente o Norton AntiVirus 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados