Software  
 
Conhecimento computador >> Software >> Planilhas >> 
Dados Limpeza e procedimentos de codificação
Ao analisar os dados , é necessário não só ter uma quantidade grande o suficiente, mas é também crucial que a qualidade dos dados é de alto padrão . Os dados podem ser feitos " sujo " em uma série de maneiras - erros durante a coleta , os erros cometidos durante a integração de vários conjuntos de dados e exclusão acidental são apenas algumas dessas maneiras. Devido a isto , é importante que os dados são limpos antes da sua utilização . Faltando Dados

procedimentos automatizados são muitas vezes utilizados para localizar os dados que faltam. Estes podem ser consultas SQL em um banco de dados ou análises estatísticas. Como analista você olhar para os padrões da distribuição dos dados em falta. Você, então, tomar decisões sobre o que fazer , o que pode ser excluindo certas variáveis ​​em conjunto, ou substituição de seus valores com médias . Às vezes, os dados em falta pode indicar erros quando integrando vários conjuntos de dados , e em um cenário de pior caso todo o processo pode ter que ser repetido para obter todos os dados.
Outliers

um outlier é um valor de dados que é a maneira fora do padrão geral dos dados. Eles podem ser identificados com os gráficos , tais como gráficos de caixa , ou por procura de valores de um determinado número de desvios padrão de distância da média . Uma vez identificados, você deve decidir se a removê-los ou não - que envolve decidir se eram erros na coleta de dados, ou os verdadeiros valores . Às vezes, você pode optar por executar certos procedimentos com e sem valores atípicos , para comparar os resultados .
Erros de formatação

erros mais banais em um conjunto de dados pode ser erros de ortografia ou outros erros semelhantes . As consultas podem ser usados ​​para localizar e substituir os erros óbvios, tais como erros de ortografia de nomes de marcas ou locais , mas eles também podem ser usados ​​para destacar pontos de dados que podem precisar de limpeza. Por exemplo, você pode executar uma pesquisa para sobrenomes ou números de telefone acima e abaixo de um determinado período , para localizar erros que ocorreram em algum lugar ao longo da coleta de dados e do processo de integração.
Codificação de dados
< br >

é comum que os dados estejam inicialmente em um formato que não é adequado para análise. Por exemplo, as respostas da pesquisa podem precisar de ser convertido para um equivalente numérico , por exemplo, de "concordo totalmente" a "7 ", ou variáveis ​​categóricas como sexo podem precisar ser convertidos em variáveis ​​indicadoras binárias. Isso é chamado de codificação ou recodificação , e é uma boa prática para criar novas variáveis ​​com os dados recém- codificados , em vez de substituir os antigos, de modo que os erros podem ser back- marcada.

Anterior :

Próximo : No
  Os artigos relacionados
·Quais são as vantagens de se utilizar um programa Stat…
·Flutuando uma coluna no Excel 
·O que é uma função Max 
·Como fazer uma série de gráficos no Eixo 
·Como calcular o estouro de texto no OpenOffice 
·Instruções para o uso de Análise de Regressão para …
·Como usar variáveis ​​indicadoras no Minitab Regressã…
·Como somar uma coluna de zeros em Excel 
·Você pode ver as notas em uma planilha no Excel 
·Como Subconjunto de dados no Excel 
  Artigos em destaque
·Como faço para imprimir Desenho Linhas de grelha no MS…
·QuickBooks não salvou 
·Como fazer um livro para colorir personalizado 
·Como ler arquivos PDF no PSP 
·Como fazer uma grade no InDesign 
·Como representar graficamente um ponto médio Usando um…
·O que é o Autodesk Backburner 
·Como fazer um plano de fundo para um slide do PowerPoin…
·Como usar o Traktor Pro para DJing 
·Foto Retoque Tutorial para GIMP 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados