O processo de remoção de erros e inconsistências dos dados é chamado
limpeza de dados ou
lavagem de dados .
Aqui está um colapso do que envolve:
*
Limpeza de dados: Este é um termo mais amplo que abrange todas as atividades relacionadas à melhoria da qualidade dos dados, incluindo identificação e correção de erros, remover duplicatas, padronizar formatos e lidar com valores ausentes.
*
lavagem de dados: Esse é um tipo específico de limpeza de dados que se concentra na remoção de pontos de dados inválidos ou indesejados. Isso geralmente envolve identificar e corrigir erros, como erros de digitação, datas incorretas ou formatação inconsistente.
Ambos os termos são usados de forma intercambiável, mas a "limpeza de dados" é um termo mais geral, enquanto "lavagem de dados" enfatiza a remoção de dados indesejados.
Aqui estão algumas técnicas comuns usadas na limpeza e lavagem de dados:
*
Validação de dados: Verificando os dados em relação às regras predefinidas e identificando erros.
*
Imputação de dados: Preencher os valores ausentes com base nos dados existentes ou no uso de métodos estatísticos.
*
Transformação de dados: Convertendo dados em um formato padronizado ou aplicando operações matemáticas.
*
Desduplicação de dados: Removendo registros duplicados.
*
padronização de dados: Garantir a consistência na formatação de dados, unidades e outros aspectos.
O objetivo da limpeza e lavagem de dados é melhorar a qualidade dos dados, tornando-o mais confiável e utilizável para análise, tomada de decisão e outros propósitos.