Limpeza de dados - também conhecido como limpeza de dados ou esfregar - é o processo de detecção e correção de erros , incoerências e omissões nos dados. Vastas quantidades de dados são coletados e analisados por políticos, economistas e cientistas , mas erros nos dados - que podem afetar seu processamento e as conclusões que deles se retiram - são comuns e de se esperar. Existem vários métodos de limpeza de dados , tanto os tradicionais e automatizado . Métodos Estatísticos
métodos estatísticos podem ser usados para auditar os dados e corrigir erros de dados mesmo complexo . Um estatístico pode analisar a média, desvio padrão e faixa de valores de dados e , com isso , identificar registros de banco de dados individuais ( tuplas) que são inválidos . Esses registros podem ser excluídos ou substituídos por um valor estatístico médio ou outro . Métodos estatísticos de limpeza de dados também pode indicar os valores em falta , que pode ser preenchido com valores plausíveis com base no restante do conjunto de dados.
De limpeza de dados Ferramentas
Dados ferramentas de limpeza já existem há vários anos . Ferramentas de limpeza de dados automatizados geralmente se concentram em um domínio específico de banco de dados - que define os possíveis valores que podem ser inseridos em cada campo ou atributo - como nome e dados de endereço . Eles geralmente usam um conjunto de regras de correspondência de uma biblioteca ou fornecidos interativamente pelo usuário, para validar os nomes das ruas , nomes de cidades e códigos postais e transformar os dados existentes em , elementos padrão individuais. Eles usam correspondente registro para determinar se dois registros representar dados sobre o mesmo assunto e são capazes de combinar indivíduos registros que tenham , por exemplo, o mesmo endereço. Ferramentas de limpeza de dados pode variar no nível de sofisticação no que diz respeito à auditoria de dados, limpeza e migração.
ETL Tools
ETL significa " Extract, Transform , carregar " e existem muitas ferramentas de software comerciais destinados a auxiliar o processo de ETL de limpeza de dados . As características importantes de uma ferramenta de ETL eficaz é a sua capacidade de ler dados de origem direta e para limpar e transformar os dados , juntamente com seu suporte para metadados . Metadados são de documentação ou informação sobre uma parte específica de dados e pode ajudar o usuário a detectar erros e inconsistências nos dados que podem não , necessariamente , ser identificados pela própria ferramenta de ETL . Ferramentas de ETL normalmente fornecem uma biblioteca de funções e esquemas para transformar dados - conversões de tipos de dados , funções aritméticas , funções de cadeia , etc - e pode extrair dados de fontes de dados de forma livre , com algumas limitações , bem como através do ODBC padrão ( "Open Database Connectivity " ) e EDA ( " Electronic Design Automation " ) interfaces.