Ao analisar os dados , é necessário não só ter uma quantidade grande o suficiente, mas é também crucial que a qualidade dos dados é de alto padrão . Os dados podem ser feitos " sujo " em uma série de maneiras - erros durante a coleta , os erros cometidos durante a integração de vários conjuntos de dados e exclusão acidental são apenas algumas dessas maneiras. Devido a isto , é importante que os dados são limpos antes da sua utilização . Faltando Dados
procedimentos automatizados são muitas vezes utilizados para localizar os dados que faltam. Estes podem ser consultas SQL em um banco de dados ou análises estatísticas. Como analista você olhar para os padrões da distribuição dos dados em falta. Você, então, tomar decisões sobre o que fazer , o que pode ser excluindo certas variáveis em conjunto, ou substituição de seus valores com médias . Às vezes, os dados em falta pode indicar erros quando integrando vários conjuntos de dados , e em um cenário de pior caso todo o processo pode ter que ser repetido para obter todos os dados.
Outliers
um outlier é um valor de dados que é a maneira fora do padrão geral dos dados. Eles podem ser identificados com os gráficos , tais como gráficos de caixa , ou por procura de valores de um determinado número de desvios padrão de distância da média . Uma vez identificados, você deve decidir se a removê-los ou não - que envolve decidir se eram erros na coleta de dados, ou os verdadeiros valores . Às vezes, você pode optar por executar certos procedimentos com e sem valores atípicos , para comparar os resultados .
Erros de formatação
erros mais banais em um conjunto de dados pode ser erros de ortografia ou outros erros semelhantes . As consultas podem ser usados para localizar e substituir os erros óbvios, tais como erros de ortografia de nomes de marcas ou locais , mas eles também podem ser usados para destacar pontos de dados que podem precisar de limpeza. Por exemplo, você pode executar uma pesquisa para sobrenomes ou números de telefone acima e abaixo de um determinado período , para localizar erros que ocorreram em algum lugar ao longo da coleta de dados e do processo de integração.
Codificação de dados
< br >
é comum que os dados estejam inicialmente em um formato que não é adequado para análise. Por exemplo, as respostas da pesquisa podem precisar de ser convertido para um equivalente numérico , por exemplo, de "concordo totalmente" a "7 ", ou variáveis categóricas como sexo podem precisar ser convertidos em variáveis indicadoras binárias. Isso é chamado de codificação ou recodificação , e é uma boa prática para criar novas variáveis com os dados recém- codificados , em vez de substituir os antigos, de modo que os erros podem ser back- marcada.