Teorias de limpeza de dados

Os erros podem ser feitas durante a coleta e integração de dados, e os analistas precisam saber como identificar e corrigir esses erros. Isto é chamado de limpeza de dados , ou de lavagem de dados . Isto não é uma ciência exata , e às vezes a decisão sobre o que fazer se baseia no julgamento do analista , no entanto, ela sabe que não só é importante ter uma quantidade suficiente de dados - deve ser de uma qualidade respeitável , também . Semântica e Formatação

A tarefa de limpeza de dados comum envolve a remoção de erros na formatação. Isso poderia ser algo tão simples como erros ortográficos feitas durante a coleta de dados ou entrada , até problemas com o símbolo usado para entradas separadas . Por exemplo, imagine o seguinte conjunto de dados está dentro de um conjunto de dados onde um apóstrofo é utilizado para entradas separadas :

Bird Watchers ' Club'42 Beacon Street'Boston

Este seria lido como:

Pássaro WatchersClub42 Beacon StreetBoston

consultas e programas automatizados são muitas vezes utilizados para limpar os dados desse erro .
Integração

Alguns conjuntos de dados são muito bem sozinho, mas tornar-se problemática , uma vez que são integrados em um repositório maior ou um data warehouse. Por exemplo , a idade pode ser armazenado como data de nascimento:

dd /mm /AAMM /dd /aaaa

Ou por faixa :

20-30, 30-40 , 40-5015-25 , 25-35 , 35-45

Em alguns casos, como data de nascimento de formatação , é bastante simples de identificar estruturas semânticas e padronizar as entradas. Em casos como as faixas etárias no entanto , as suposições devem ser feitas. Por exemplo, é o número de pessoas com idades entre 25-35 a média das pessoas com idades entre 20-30 e 30-40

Outliers

Outliers são ? os pontos de dados que se encontram longe do resto dos dados . Por exemplo, uma era de 600 , ou um teste de contagem várias vezes maior do que a média . No primeiro caso , você pode seguramente assumir que foi um erro de digitação , mas no segundo não é tão óbvio. Quando você não sabe se um outlier é um erro ou um ponto de dados legítimo, que é o seu julgamento se para removê-la ou não, tendo em conta a finalidade dos dados .
Dados ausentes

Você também deve decidir o que fazer se algum dado está faltando . Primeiro , os padrões devem ser identificados usando consultas e análises estatísticas - a distribuição dos dados em falta determina o que você deve fazer. Por exemplo, se uma pesquisa online tem duas páginas , mas apenas as questões na primeira página foram respondidas , esta informação pode ser usada para ajudar a refinar as formas . Se os dados em falta é distribuída aleatoriamente e está na mesma variável , às vezes é possível fazer estimativas com base no que já é conhecido.

Anterior : Adicionando Evernote para o iCal

Próximo : No

Os artigos relacionados

·	Vs Simultânea. Uso único ArcGIS
·	Como converter Unicode para não- Unicode no SSIS
·	Diferentes fases do Banco de Dados
·	Como Normalize um ERD
·	O que são correlacionados subconsultas
·	Como teste para a igualdade de duas variâncias em JMP
·	Definição de Programático DataSet Conexão
·	MPP Vs . SMP Banco de Dados
·	GJXDM Protocolo
·	Como saber a hora de início de um Banco de Dados Oracl…

Artigos em destaque

·	Como excluir Norton História
·	O que causa o iTunes para Congelar
·	Como solucionar iTunes Gravação de CD
·	Como hospedar o domínio principal de uma subpasta
·	Como gravar um arquivo MP4 filme para DVD
·	Como gravar um CD de áudio em um DVD em branco
·	Como separar multitracks para Barbershop Música
·	Como fazer backup de seu computador no Windows Vista
·	Como remover um assassino Spam
·	Como remover manualmente o Norton AntiVirus