O que é o perfil de dados e seus benefícios?

Tempo estimado de leitura: 4 atas

O perfil de dados é o processo de criação de estatísticas sobre um conjunto de dados que permitirá aos leitores das métricas compreender o quão boa é a qualidade dos dados para esses dados.

Normalmente, esta é uma das muitas funções de um analista de dados.

Muitas organizações têm problemas de qualidade de dados, e a capacidade de identificá-los e corrigi-los ajuda com muitos problemas operacionais e de clientes de forma proativa.

Como resultado, pode ajudar a identificar erros nos dados que possam:

  • Alimenta-se de relatórios.
  • Reduzir a eficácia dos resultados da aprendizagem da máquina.
  • Ter um impacto regulamentar nos relatórios apresentados e na forma como a sua eficácia é medida.
  • Os clientes insatisfeitos ficarão irritados com a recepção de comunicações que tenham dados incorrectos sobre eles.
  • Os processos de lote falharão, reduzindo a eficácia das tarefas automatizadas.

Para entender como implementar um processo eficaz de criação de perfis de dados, é essencial identificar os dados onde os problemas podem ocorrer:

  • Entrada de dados por um humano.
  • Dados importados não limpos.
  • Sistemas de terceiros estão alimentando você com dados que contêm erros.
  • Aquisições de empresas, integrando dados que contenham erros.

A quantidade de dados que agora é coletada e armazenada em grandes sistemas de dados, precisa de um processo para gerenciar e capturar erros.

Então, quais são as diferentes formas de traçar o perfil dos dados?

Para garantir um alto nível de qualidade de dados, você deve considerar algumas das seguintes técnicas:

  • Integralidade - Os dados disponíveis representam um quadro completo dos dados que devem estar presentes?
  • Conformidade - Os dados estão de acordo com a estrutura correta, como seria de se esperar quando você os observasse?
  • Consistência - Se você tem os mesmos dados em dois sistemas diferentes, são eles os mesmos valores.
  • Precisão - Haverá a necessidade de assegurar que os dados presentes sejam precisos. Isto poderia fundamentalmente tomar quaisquer decisões tomadas na parte de trás que não fossem correctas, o que poderia ter efeitos conhecidos.
  • Exclusividade - Se existem propriedades de dados que são únicas, o conjunto de dados mostra isso.

Quando deve ser feito o perfil dos dados?

Isto dependerá da organização e do processo que depende dela.

Iremos delinear alguns cenários diferentes que podem influenciar a forma de abordar este

Processamento direto - Se você está procurando automatizar, haverá a necessidade de garantir que nenhum processo automatizado falhe.

Como resultado, haverá necessidade de verificar os dados antes de alimentar um novo sistema. Algumas etapas podem ser implementadas:

  • Digitalize a fonte de dados em busca de problemas de dados conhecidos.
  • Aplicar a lógica para corrigir quaisquer problemas de dados encontrados.
  • Alimentar os dados até ao seu destino uma vez que todas as correcções tenham sido feitas.

Problemas que podem ocorrer com isto:

  • Novos erros como lidar com eles, você os deixa ocorrer e corrigi-los e a lógica de ser pego no futuro?
  • Isto leva à necessidade de correções no sistema de destino, o que leva a uma fixação mais a jusante dos dados.
  • Você não pode controlar os dados com erros que chegam; você precisa relatar e validar as atualizações necessárias.

2. Processamento em lote - Neste cenário, há um atraso na alimentação dos dados, pois os dados têm de estar disponíveis para serem alimentados no sistema de destino.

Como no processo automatizado, há algum nível de automação, mas há mais controle ao redor quando os dados são fornecidos, e podem ser pausados ou reexecutados. Algumas das etapas que podem ser implementadas incluem:

  • Digitalize os dados e forneça um relatório sobre a sua qualidade. Corrija os dados se forem encontrados erros, depois carregue.
  • Permitir que os dados sejam carregados e, em seguida, usando um relatório, corrigi-los em um sistema a jusante.
  • Trabalhar com os fornecedores dos dados para melhorar a qualidade dos dados recebidos.
O que é Perfil de Dados?

Cenários onde o perfil de dados pode ser aplicado

MediçãoExemplo de CenárioImpacto
Integralidade - Os dados disponíveis representam um quadro completo dos dados que devem estar presentes.DOB povoadoCante usar como parte das verificações de segurança ao discutir valores de clientes ou calcular mal os valores que dependem da DOB.
Conformidade - Os dados estão de acordo com a estrutura correta, como seria de se esperar quando você os observasse?  Endereço de e-mail incorretoOs e-mails para os clientes são devolvidos; o acompanhamento das necessidades para corrigir, o cliente não recebe a comunicação adequada.
Consistência - Se você tem os mesmos dados em dois sistemas diferentes, eles são os mesmos valores?  Os dados armazenados em sistemas diferentes têm de ser exactamente os mesmos.O cliente pode ser comunicado de diferentes versões dos mesmos dados.
Precisão - Haverá a necessidade de assegurar que os dados presentes sejam precisos. Isto poderia fundamentalmente tomar quaisquer decisões tomadas na parte de trás que não fossem correctas, o que poderia ter um efeito de arrastamento.Dados imprecisos significam decisões incorretasEnvio de comunicações para o conjunto errado de clientes que não esperam ou não precisam da informação.
Exclusividade - Se existem propriedades de dados que são únicas, o conjunto de dados mostra isso?Os mesmos dados são povoados para diferentes conjuntos de clientes independentes.Sem visibilidade para o cliente e seus dados corretos reais. Informação incorreta processada para eles. O risco financeiro e de reputação também pode ser um problema.

O que é que um analista de dados faz?

Tempo estimado de leitura: 4 atas

Livestream #2 - O que faz um analista de dados?

Provavelmente está aí sentado a ouvir falar de grandes dados e bases de dados, análise de dados e aprendizagem de máquinas e pergunta-se onde se encaixa um analista de dados?

Aqui procuraremos quebrá-lo passo a passo.

Às vezes um analista de dados pode ser confundido com um analista de negócios; há diferenças sutis:

  • Analista de Negócios: Sua função é documentar os requisitos do usuário em um documento que seja descritivo do que o usuário deseja.
    • Neste caso, é criado um documento com o qual todas as partes podem concordar, e que pode ser utilizado como parte da assinatura do projecto.
  • Analista de dados: Por outro lado, um analista de dados pegará os requisitos do negócio e os traduzirá em dados a serem entregues.
    • Eles usam o documento para garantir que o projeto tenha os dados certos para cumprir os objetivos do projeto, no lugar certo e no momento certo.

Mapeamento de Dados

Em diferentes projectos de dados , haverá necessidade de reconciliar os dados entre sistemas, uma análise de dados irá ajudar aqui.

Em um exercício de mapeamento de dados, espera-se que o analista de dados olhe para uma ou mais fontes e as mapeie para um sistema de destino.

  • Isto assegura uma correspondência entre os dois conjuntos de dados.
  • O que resulta na capacidade de reconciliar os dois sistemas.
  • Permite a capacidade de usar dados em múltiplos sistemas, sabendo que a consistência está no lugar.
  • Consistência dos tipos de dados entre os sistemas.
  • Ele garante que os erros de validação de dados sejam mantidos a um nível mínimo.

Muitas vezes um Analista de Dados construirá uma matriz de rastreabilidade, que rastreia o item de dados desde a criação até ao consumo.

Qualidade dos dados

Na maioria das empresas, haverá equipas (dependendo do seu tamanho) dedicadas a isto, e a sua contribuição será fundamental para a utilização dos dados existentes e futuros.

A qualidade dos dados é uma tarefa importante que pode ter impacto nos relatórios internos e externos e na capacidade de uma empresa para tomar decisões com precisão.

Algumas das áreas que podem ser analisadas incluem:

(A) Investigar dados duplicados - Pode haver uma série de razões para isso ter de ser verificado:

  • Os dados foram introduzidos manualmente várias vezes.
  • Um processo automatizado executado várias vezes.
  • Uma mudança em um sistema de TI tem, inconscientemente, dados duplicados.

(B) Encontrar erros - Isto poderia ser completado em conjunto com os relatórios de dados descritos abaixo.

  • Normalmente as empresas terão claramente regras que recolhem os erros de dados que não são esperados.
  • Um analista de dados analisará o motivo da ocorrência destes erros.

(C) Verificação da falta de dados.

  • A alimentação de dados falhou. Será necessário um pedido para recarregar os dados.
  • Os dados que não foram solicitados como parte dos requisitos do negócio confirmam que este é o caso.

(D) Melhorar os dados com informações adicionais - Há informações adicionais que possam ser adicionadas e que possam enriquecer o conjunto de dados?

(E) A verificação dos dados está no formato correcto - existem cenários onde isto pode correr mal, e um exemplo é um campo de data é preenchido com texto.

Relatório de dados

Em algumas das áreas acima, tocamos na importância da qualidade dos dados.

Em última análise, pode haver a necessidade de rastrear:

  • Qualidade dos dados - Construir relatórios para capturar a qualidade dos dados com base em medições pré-definidas do negócio.
  • Relatórios em tempo real - Sem novos clientes ou clientes que tenham deixado uma organização.
  • Metas de Rastreio - A meta estabelecida pelo negócio foi atingida diariamente, semanalmente ou mensalmente?
  • Relatórios de Gestão - Construa relatórios que forneçam informações para pacotes de gestão que forneçam uma visão geral de como o negócio funciona.

Teste de dados

As organizações passam por projectos de mudança onde novos dados estão a ser introduzidos ou melhorados.

Como resultado, o analista de dados terá uma série de tarefas para completar:

  • Escrita de Scripts de Teste - Escrever todos os scripts para contagem de registos, transformações e comparações tabela a tabela.
  • Validação do tipo de dados - Assegura que todos os novos dados serão os mesmos que os outros dados onde são armazenados.
  • Sem perda de dados - Verifique se todos os dados são importados correctamente, sem truncagem de dados.
  • Contagem de registos - Escrever um script SQL que completaria uma reconciliação da fonte para a destinação.
  • Transformação de Dados - Certifique-se de que qualquer transformação é aplicada corretamente.

Apoio a projetos de dados

Os projectos ad hoc são comuns, e por vezes tornam-se uma prioridade para as empresas, uma vez que lidam com requisitos que resultam como parte de uma necessidade comercial imediata.

Os Data Analysts serão chamados para apoiar projetos onde houver necessidade de garantir que os dados necessários sejam de um padrão que atenda aos resultados do projeto:

Algumas áreas comuns onde isto pode ocorrer incluem:

  • Extrair dados onde foi descoberto que foram corrompidos.
  • Investigar alterações de dados, para analisar onde possa ter ocorrido uma quebra de dados.
  • Um órgão regulador externo solicitou informações para apoiar alguns relatórios enviados.
  • Um cliente solicitou todas as informações da empresa sobre eles; geralmente é o caso de um pedido da GDPR .