A entrada para processamento de dados e inteligência de negócios (BI) é incrivelmente variada, mas geralmente se enquadra nessas categorias:
*
Dados estruturados: São dados organizados em um formato predefinido, facilmente acessíveis e analisados pelos sistemas tradicionais de banco de dados. Exemplos incluem:
*
bancos de dados relacionais (rdbms): Dados armazenados em tabelas com linhas e colunas (por exemplo, MySQL, PostgreSQL, Oracle, SQL Server).
*
planilhas: Dados organizados em linhas e colunas (por exemplo, arquivos do Excel).
*
CSV (valores separados por vírgula) Arquivos: Arquivos de texto simples com dados separados por vírgulas.
* Arquivos XML (Linguagem de marcação extensível) e JSON (notação de objeto JavaScript): Dados formatados usando tags ou pares de valor-chave.
*
logs de transação: Registros de transações comerciais.
*
Dados semiestruturados: Dados que não estão em conformidade com uma estrutura de tabela rígida, mas possui algumas propriedades organizacionais. Exemplos incluem:
* bancos de dados
NOSQL: Lojas de dados como MongoDB ou Cassandra.
*
Arquivos de log: Registros de eventos do sistema.
*
arquivos xml e json (quando não está estritamente em conformidade com um esquema). *
dados não estruturados: São dados que não possuem um formato predefinido e são difíceis de processar usando métodos tradicionais. Exemplos incluem:
*
Arquivos de texto: Documentos, e -mails, postagens de mídia social.
*
Imagens: Fotografias, varreduras.
*
Arquivos de áudio: Gravações, podcasts.
*
Arquivos de vídeo: Vídeos, gravações.
*
Fontes de dados externas: Dados obtidos de fora da organização, como:
*
APIs de terceiros: Acessando dados de outras empresas ou serviços.
*
conjuntos de dados públicos: Dados do governo, dados de pesquisa.
*
mídia social: Dados raspados das plataformas de mídia social.
Em resumo, a entrada pode variar de dados altamente organizados e bem embalados a informações crus e caóticas. As entradas específicas dependerão dos negócios, das perguntas e das capacidades do processamento de dados e das ferramentas de BI que estão sendo usadas. O processo geralmente envolve limpeza, transformação e integração de dados de várias fontes antes que ele possa ser efetivamente usado para análise e tomada de decisão.