Os erros podem ser feitas durante a coleta e integração de dados, e os analistas precisam saber como identificar e corrigir esses erros. Isto é chamado de limpeza de dados , ou de lavagem de dados . Isto não é uma ciência exata , e às vezes a decisão sobre o que fazer se baseia no julgamento do analista , no entanto, ela sabe que não só é importante ter uma quantidade suficiente de dados - deve ser de uma qualidade respeitável , também . Semântica e Formatação
A tarefa de limpeza de dados comum envolve a remoção de erros na formatação. Isso poderia ser algo tão simples como erros ortográficos feitas durante a coleta de dados ou entrada , até problemas com o símbolo usado para entradas separadas . Por exemplo, imagine o seguinte conjunto de dados está dentro de um conjunto de dados onde um apóstrofo é utilizado para entradas separadas :
Bird Watchers ' Club'42 Beacon Street'Boston
Este seria lido como:
Pássaro WatchersClub42 Beacon StreetBoston
consultas e programas automatizados são muitas vezes utilizados para limpar os dados desse erro .
Integração
Alguns conjuntos de dados são muito bem sozinho, mas tornar-se problemática , uma vez que são integrados em um repositório maior ou um data warehouse. Por exemplo , a idade pode ser armazenado como data de nascimento:
dd /mm /AAMM /dd /aaaa
Ou por faixa :
20-30, 30-40 , 40-5015-25 , 25-35 , 35-45
Em alguns casos, como data de nascimento de formatação , é bastante simples de identificar estruturas semânticas e padronizar as entradas. Em casos como as faixas etárias no entanto , as suposições devem ser feitas. Por exemplo, é o número de pessoas com idades entre 25-35 a média das pessoas com idades entre 20-30 e 30-40
Outliers
Outliers são ? os pontos de dados que se encontram longe do resto dos dados . Por exemplo, uma era de 600 , ou um teste de contagem várias vezes maior do que a média . No primeiro caso , você pode seguramente assumir que foi um erro de digitação , mas no segundo não é tão óbvio. Quando você não sabe se um outlier é um erro ou um ponto de dados legítimo, que é o seu julgamento se para removê-la ou não, tendo em conta a finalidade dos dados .
Dados ausentes
Você também deve decidir o que fazer se algum dado está faltando . Primeiro , os padrões devem ser identificados usando consultas e análises estatísticas - a distribuição dos dados em falta determina o que você deve fazer. Por exemplo, se uma pesquisa online tem duas páginas , mas apenas as questões na primeira página foram respondidas , esta informação pode ser usada para ajudar a refinar as formas . Se os dados em falta é distribuída aleatoriamente e está na mesma variável , às vezes é possível fazer estimativas com base no que já é conhecido.