Cos'è il profiling dei dati e i suoi benefici?

Tempo di lettura stimato: 4 minuti

Il profiling dei dati è il processo di creazione di statistiche su un set di dati che permetterà ai lettori delle metriche di capire quanto è buona la qualità dei dati per quei dati.

Di solito questa è una delle tante funzioni di un analista di dati.

Molte organizzazioni hanno problemi di qualità dei dati, e la capacità di identificarli e correggerli aiuta a risolvere molti problemi operativi e dei clienti in modo proattivo.

Di conseguenza, può aiutare a identificare gli errori nei dati che possono:

  • Alimentare i rapporti.
  • Ridurre l'efficacia dei risultati dell'apprendimento automatico.
  • Avere un impatto normativo sui rapporti presentati e su come viene misurata la loro efficacia.
  • I clienti insoddisfatti si irriteranno nel ricevere comunicazioni con dati errati.
  • I processi batch falliranno, riducendo l'efficacia dei compiti automatizzati.

Per capire come implementare un processo efficace di profilazione dei dati, è essenziale identificare i dati in cui possono verificarsi i problemi:

  • Inserimento dei dati da parte di un umano.
  • Dati importati non puliti.
  • I sistemi di terze parti vi forniscono dati che contengono errori.
  • Acquisizioni di aziende, integrazione di dati che presentano errori.

La quantità di dati che ora viene raccolta e immagazzinata nei sistemi di big data, ha bisogno di un processo per gestire e catturare gli errori.

Quindi quali sono i diversi modi di profilare i dati?

Per assicurare un alto livello di qualità dei dati, dovreste considerare alcune delle seguenti tecniche:

  • Completezza - I dati disponibili rappresentano un quadro completo dei dati che dovrebbero essere presenti?
  • Conformità - I dati sono conformi alla struttura corretta come ci si aspetta quando li si osserva?
  • Coerenza - Se avete gli stessi dati in due sistemi diversi, sono gli stessi valori.
  • Accuratezza - Ci sarà bisogno di assicurare che i dati presenti siano accurati. Questo potrebbe fondamentalmente rendere qualsiasi decisione presa sulla base di esso non corretta, il che potrebbe avere effetti noti.
  • Unicità - Se ci sono proprietà dei dati che sono uniche, il set di dati lo mostra.

Quando dovrebbe avvenire la profilazione dei dati?

Questo dipenderà dall'organizzazione e dal processo che si basa su di essa.

Delineeremo alcuni diversi scenari che possono influenzare il modo in cui approcciarsi a questo

Elaborazione diretta - Se state cercando di automatizzare, ci sarà bisogno di assicurare che nessun processo automatizzato fallisca.

Di conseguenza, ci sarà bisogno di controllare i dati prima che alimentino un nuovo sistema. Alcuni passi che potrebbero essere implementati includono:

  • Eseguire la scansione dell'origine dei dati per problemi di dati conosciuti.
  • Applica la logica per risolvere qualsiasi problema di dati trovato.
  • Alimenta i dati a destinazione una volta che tutte le correzioni sono state fatte.

Problemi che possono verificarsi con questo:

  • Nuovi errori come gestirli, li lasciate accadere e li fissate e la logica per essere presi in futuro?
  • Questo porta alla necessità di correzioni nel sistema di destinazione, che porta alla correzione più a valle dei dati.
  • Non puoi controllare i dati con gli errori che arrivano; devi segnalare e convalidare gli aggiornamenti che sono richiesti.

2. Elaborazione in batch - In questo scenario, c'è un ritardo nell'alimentazione dei dati, poiché i dati devono essere disponibili per l'alimentazione nel sistema di destinazione.

Come per il processo automatizzato, c'è un certo livello di automazione, ma c'è più controllo su quando i dati vengono forniti, e può essere messo in pausa o rieseguito. Alcuni dei passi che possono essere implementati includono:

  • Scansiona i dati e fornisce un rapporto sulla loro qualità. Correggere i dati se si trovano errori, poi caricarli.
  • Lasciate che i dati vengano caricati e poi, usando un rapporto, correggeteli in un sistema a valle.
  • Lavorare con i fornitori dei dati per migliorare la qualità dei dati ricevuti.
Che cos'è la profilazione dei dati?

Scenari in cui si può applicare la profilazione dei dati

MisuraEsempio di scenarioImpatto
Completezza - I dati disponibili rappresentano un quadro completo dei dati che dovrebbero essere presenti.DOB popolatoNon si può usare come parte dei controlli di sicurezza quando si parla di clienti o si calcolano male i valori che dipendono dal DOB.
Conformità - I dati sono conformi alla struttura corretta come ci si aspetta quando li si osserva?  Indirizzo e-mail erratoLe e-mail ai clienti tornano indietro; ha bisogno di un follow-up per correggere, il cliente non riceve una comunicazione adeguata.
Coerenza - Se avete gli stessi dati in due sistemi diversi, sono gli stessi valori?  I dati memorizzati su diversi sistemi devono essere esattamente gli stessi.Al cliente potrebbero essere comunicate diverse versioni degli stessi dati.
Accuratezza - Ci sarà bisogno di assicurare che i dati presenti siano accurati. Questo potrebbe fondamentalmente rendere qualsiasi decisione presa sulla base di esso non corretta, il che potrebbe avere un effetto a catena.Dati imprecisi significano decisioni incorreteL'invio di comunicazioni al gruppo sbagliato di clienti che non si aspettano o non hanno bisogno di informazioni.
Unicità - Se ci sono proprietà dei dati che sono uniche, il set di dati lo mostra?Gli stessi dati sono popolati per diversi gruppi di clienti indipendenti.Nessuna visibilità sul cliente e sui suoi dati reali corretti. Informazioni errate elaborate per loro. Anche il rischio finanziario e di reputazione potrebbe essere un problema.

Cosa fa un analista di dati?

Tempo di lettura stimato: 4 minuti

Livestream #2 - Cosa fa un analista di dati?

Probabilmente state sentendo parlare di big data e database, di analisi dei dati e di apprendimento automatico e vi chiedete dove si collochi un analista di dati?

Qui cercheremo di romperlo passo dopo passo.

A volte un analista di dati può essere confuso con un analista di business; ci sono sottili differenze:

  • Analista di business: Il loro ruolo è quello di documentare i requisiti dell'utente in un documento che è descrittivo di ciò che l'utente vuole.
    • In questo caso, viene creato un documento che tutte le parti possono accettare e che può essere utilizzato come parte del sign-off del progetto.
  • Analista di dati: D'altra parte, un analista di dati prenderà i requisiti di business e li tradurrà in prodotti di dati.
    • Usano il documento per assicurare che il progetto abbia i dati giusti per soddisfare gli obiettivi del progetto nel posto giusto al momento giusto.

Mappatura dei dati

In diversi progetti di dati , sarà necessario riconciliare i dati tra i sistemi; un'analisi dei dati sarà utile in questo caso.

In un esercizio di mappatura dei dati, l'analista dei dati dovrà esaminare una o più fonti e mapparle in un sistema di destinazione.

  • Questo assicura una corrispondenza tra i due set di dati.
  • Il che si traduce nella capacità di conciliare i due sistemi.
  • Permette la possibilità di utilizzare i dati in più sistemi, sapendo che la coerenza è presente.
  • Coerenza dei tipi di dati tra i sistemi.
  • Assicura che gli errori di convalida dei dati siano ridotti al minimo.

Spesso un analista di dati costruisce una matrice di tracciabilità, che segue l'elemento di dati dalla creazione al consumo.

Qualità dei dati

Nella maggior parte delle aziende, ci saranno dei team (a seconda delle loro dimensioni) dedicati a questo, e il loro input sarà fondamentale per l'uso attuale e futuro dei dati.

La qualità dei dati è un compito importante che può avere un impatto sulla reportistica interna ed esterna e sulla capacità dell'azienda di prendere decisioni in modo accurato.

Alcune delle aree che potrebbero essere esaminate includono:

(A) Indaga sui dati duplicati - Ci potrebbero essere diverse ragioni per cui questo deve essere controllato:

  • I dati sono stati inseriti manualmente più volte.
  • Un processo automatizzato è stato eseguito più volte.
  • Una modifica a un sistema informatico ha inconsapevolmente duplicato dei dati.

(B) Individuazione degli errori - Questa operazione potrebbe essere completata insieme alla segnalazione dei dati descritta di seguito.

  • Normalmente le aziende hanno chiaramente delle regole che raccolgono gli errori di dati che non sono previsti.
  • Un analista di dati analizzerà il motivo di questi errori.

(C) Controllo dei dati mancanti.

  • L'alimentazione dei dati è fallita. Sarà necessaria una richiesta per ricaricare i dati.
  • I dati che non sono stati richiesti come parte dei requisiti aziendali confermano che questo è il caso.

(D) Migliorare i dati con informazioni aggiuntive - Ci sono informazioni aggiuntive che possono essere aggiunte per arricchire il set di dati?

(E) Controllare che i dati siano nel formato corretto - Ci sono scenari in cui questo può andare storto, e un esempio è un campo data popolato con del testo.

Segnalazione dei dati

In alcune delle aree precedenti, abbiamo toccato l'importanza della qualità dei dati.

Alla fine potrebbe esserci la necessità di tracciare:

  • Qualità dei dati - Costruisci rapporti per catturare la qualità dei dati in base a misure aziendali predefinite.
  • Reporting in tempo reale - Nessun nuovo cliente o cliente che ha lasciato un'organizzazione.
  • Tracciare gli obiettivi - L'obiettivo fissato dall'azienda è stato raggiunto quotidianamente, settimanalmente o mensilmente?
  • Reporting di gestione - Costruisci rapporti che forniscono input ai pacchetti di gestione che forniscono una panoramica di come il business si comporta.

Test dei dati

Le organizzazioni attraversano progetti di cambiamento in cui vengono introdotti o migliorati nuovi dati.

Di conseguenza, l'analista di dati avrà una serie di compiti da portare a termine:

  • Scrivere gli script di test - Scrivere tutti gli script per il conteggio dei record, le trasformazioni e i confronti da tabella a tabella.
  • Convalida del tipo di dati - Assicura che tutti i nuovi dati siano uguali agli altri dati in cui sono memorizzati.
  • Nessuna perdita di dati - Verificare che tutti i dati siano importati correttamente e che non vengano troncati.
  • Conteggio dei record - Scrivere uno script SQL per completare una riconciliazione dall'origine alla destinazione.
  • Trasformazione dei dati - Assicurati che tutte le trasformazioni siano applicate correttamente.

Progetti di supporto ai dati

I progetti ad hoc sono comuni e talvolta diventano una priorità per le aziende, in quanto si occupano di requisiti che derivano da un'esigenza aziendale immediata.

Gli analisti di dati saranno chiamati a sostenere progetti in cui c'è la necessità di garantire che i dati richiesti siano di uno standard che soddisfi i risultati del progetto:

Alcune aree comuni in cui ciò potrebbe verificarsi sono

  • Estrarre i dati dove si è scoperto che sono stati corrotti.
  • Indagare sui cambiamenti dei dati, per analizzare dove può essersi verificata una violazione dei dati.
  • Un organismo di regolamentazione esterno ha chiesto informazioni per sostenere alcune relazioni presentate.
  • Un cliente ha richiesto tutte le informazioni dell'azienda su di lui; di solito è il caso di una richiesta GDPR .