Cos'è il profiling dei dati e i suoi benefici?

Tempo di lettura stimato: 4 minuti

Il profiling dei dati è il processo di creazione di statistiche su un set di dati che permetterà ai lettori delle metriche di capire quanto è buona la qualità dei dati per quei dati.

Molte organizzazioni hanno problemi di qualità dei dati, e la capacità di identificarli e correggerli aiuta a risolvere molti problemi operativi e dei clienti in modo proattivo.

Di conseguenza, può aiutare a identificare gli errori nei dati che possono:

  • Alimentare i rapporti.
  • Ridurre l'efficacia dei risultati dell'apprendimento automatico.
  • Avere un impatto normativo sui rapporti presentati e su come viene misurata la loro efficacia.
  • I clienti insoddisfatti si irriteranno nel ricevere comunicazioni con dati errati.
  • I processi batch falliranno, riducendo l'efficacia dei compiti automatizzati.

Per capire come implementare un processo efficace di profilazione dei dati, è essenziale identificare i dati in cui possono verificarsi i problemi:

  • Inserimento dei dati da parte di un umano.
  • Dati importati non puliti.
  • I sistemi di terze parti vi forniscono dati che contengono errori.
  • Acquisizioni di aziende, integrazione di dati che presentano errori.

La quantità di dati che ora viene raccolta e immagazzinata nei sistemi di big data, ha bisogno di un processo per gestire e catturare gli errori.

Quindi quali sono i diversi modi di profilare i dati?

Per assicurare un alto livello di qualità dei dati, dovreste considerare alcune delle seguenti tecniche:

  • Completezza - I dati disponibili rappresentano un quadro completo dei dati che dovrebbero essere presenti?
  • Conformità - I dati sono conformi alla struttura corretta come ci si aspetta quando li si osserva?
  • Coerenza - Se avete gli stessi dati in due sistemi diversi, sono gli stessi valori.
  • Accuratezza - Ci sarà bisogno di assicurare che i dati presenti siano accurati. Questo potrebbe fondamentalmente rendere qualsiasi decisione presa sulla base di esso non corretta, il che potrebbe avere effetti noti.
  • Unicità - Se ci sono proprietà dei dati che sono uniche, il set di dati lo mostra.

Quando dovrebbe avvenire la profilazione dei dati?

Questo dipenderà dall'organizzazione e dal processo che si basa su di essa.

Delineeremo alcuni diversi scenari che possono influenzare il modo in cui approcciarsi a questo

Elaborazione diretta - Se state cercando di automatizzare, ci sarà bisogno di assicurare che nessun processo automatizzato fallisca.

Di conseguenza, ci sarà bisogno di controllare i dati prima che alimentino un nuovo sistema. Alcuni passi che potrebbero essere implementati includono:

  • Eseguire la scansione dell'origine dei dati per problemi di dati conosciuti.
  • Applica la logica per risolvere qualsiasi problema di dati trovato.
  • Alimenta i dati a destinazione una volta che tutte le correzioni sono state fatte.

Problemi che possono verificarsi con questo:

  • Nuovi errori come gestirli, li lasciate accadere e li fissate e la logica per essere presi in futuro?
  • Questo porta alla necessità di correzioni nel sistema di destinazione, che porta alla correzione più a valle dei dati.
  • Non puoi controllare i dati con gli errori che arrivano; devi segnalare e convalidare gli aggiornamenti che sono richiesti.

2. Elaborazione in batch - In questo scenario, c'è un ritardo nell'alimentazione dei dati, poiché i dati devono essere disponibili per l'alimentazione nel sistema di destinazione.

Come per il processo automatizzato, c'è un certo livello di automazione, ma c'è più controllo su quando i dati vengono forniti, e può essere messo in pausa o rieseguito. Alcuni dei passi che possono essere implementati includono:

  • Scansiona i dati e fornisce un rapporto sulla loro qualità. Correggere i dati se si trovano errori, poi caricarli.
  • Lasciate che i dati vengano caricati e poi, usando un rapporto, correggeteli in un sistema a valle.
  • Lavorare con i fornitori dei dati per migliorare la qualità dei dati ricevuti.

Scenari in cui si può applicare la profilazione dei dati

MisuraEsempio di scenarioImpatto
Completezza - I dati disponibili rappresentano un quadro completo dei dati che dovrebbero essere presenti.DOB popolatoNon si può usare come parte dei controlli di sicurezza quando si parla di clienti o si calcolano male i valori che dipendono dal DOB.
Conformità - I dati sono conformi alla struttura corretta come ci si aspetta quando li si osserva?  Indirizzo e-mail erratoLe e-mail ai clienti tornano indietro; ha bisogno di un follow-up per correggere, il cliente non riceve una comunicazione adeguata.
Coerenza - Se avete gli stessi dati in due sistemi diversi, sono gli stessi valori?  I dati memorizzati su diversi sistemi devono essere esattamente gli stessi.Al cliente potrebbero essere comunicate diverse versioni degli stessi dati.
Accuratezza - Ci sarà bisogno di assicurare che i dati presenti siano accurati. Questo potrebbe fondamentalmente rendere qualsiasi decisione presa sulla base di esso non corretta, il che potrebbe avere un effetto a catena.Dati imprecisi significano decisioni incorreteL'invio di comunicazioni al gruppo sbagliato di clienti che non si aspettano o non hanno bisogno di informazioni.
Unicità - Se ci sono proprietà dei dati che sono uniche, il set di dati lo mostra?Gli stessi dati sono popolati per diversi gruppi di clienti indipendenti.Nessuna visibilità sul cliente e sui suoi dati reali corretti. Informazioni errate elaborate per loro. Anche il rischio finanziario e di reputazione potrebbe essere un problema.

Come pulire i dati di una tabella di database

In Data Analytics, questa è una domanda molto rilevante, e qualcosa che cerco di implementare nella maggior parte dei progetti, a volte è troppo facile fare clic sull'icona della scorciatoia per l'applicazione del foglio di calcolo!

Qui stiamo cercando di portare un po' di automazione in questi video. Basandosi su Come importare dati da file e Rimozione di caratteri da un file CSV importato, questo video si collega a una tabella di database Microsoft Azure cloud, porta i dati con errori su di essa, corregge gli errori e visualizza il corretto output sullo schermo.

Cosa può fare questo per le organizzazioni?

Ci sono diversi vantaggi nell'automatizzare questo passaggio:

  • Meno interventi manuali se c'è la necessità di risolvere problemi di dati.
  • Migliore produttività.
  • Un migliore flusso di dati senza errori e un reporting più rapido.

 

Allontanarsi dai file

Il processo di allontanamento dai file e di automazione ha diverse fasi:

  • Siate chiari sulle vostre esigenze in materia di dati.
  • Capire cosa si sta cercando di ottenere.
  • Costruire un processo che sia ripetibile ma che possa essere aggiornato facilmente.
  • Assicuratevi di integrare i controlli di qualità dei dati, aiuta a fornire agli utenti un output migliore.

Grazie per essere passato!

Analisi dei dati Irlanda

 

Come rimuovere i caratteri indesiderati

Tempo di lettura stimato: 2 minuti

Rimuovere l'indesiderato, che ti blocca.
Si è creata una situazione in cui avete un'informazione che contiene dati errati, cosa fate?

I problemi di dati sono uno scenario comune affrontato da molti professionisti dell'analisi dei dati e dall'industria nel suo complesso. La qualità dei dati ora è diventata più critica, soprattutto perché spostiamo più processi online e il panorama digitale aumenta.

La maggior parte dei dati passano attraverso un processo di trasferimento da qualche parte tra i sistemi da utilizzare o i rapporti si basano sulla loro accuratezza. Se i dati nel sistema di origine hanno problemi di qualità, il problema se non viene affrontato prima di andare da qualche altra parte, può allora spingere i problemi di qualità dei dati più in tutta l'organizzazione, come una ragnatela di ragni si espande ulteriormente.

Il passo successivo, cercare di risolvere il problema e pianificarlo.

Per combattere questo problema i professionisti devono elaborare un piano su come affrontarlo:

  • Fissare alla fonte
  • Prendete i dati prima di procedere e indagate sui problemi.
  •  Rifiuta il file o parte di esso.

Tutte e tre le opzioni di cui sopra hanno scenari intorno a loro con costi e implicazioni, a seconda del settore, è necessario scegliere il modo più appropriato per gestire. Per esempio, nel settore bancario i file di pagamento possono a volte avere dati che vengono rifiutati interamente o in parte.

Ma la banca può decidere di scartare solo i record con i dati sbagliati e trattare tutto il resto.

Come procedere e come le espressioni regolari possono aiutare

In questo video, cerchiamo di esaminare un esempio di come pulire un set di dati;

(A) Usiamo una lista per verificare quali problemi dobbiamo trovare.

(B) Usare di nuovo le funzioni per elaborare i dati per trovare il problema ed estrarli.

(C) Le espressioni regolari appaiono anche quando cercano di trovare i caratteri speciali nel set di dati.

Il concetto di espressioni regolari è usato ampiamente in diversi linguaggi di programmazione; è un buon modo per testare i dati e trovare valori errati. Se state pensando al machine learning, è abbastanza importante avere una conoscenza più approfondita di come funzionano. Ecco un buon link per ulteriori letture se avete bisogno di maggiori informazioni Espressione regolare come

Grazie per averci guardato e, se volete, condividete e iscrivetevi attraverso i pulsanti di questa pagina!

Analisi dei dati Irlanda

Elenchi di canali YouTube - Python Data Cleansing

Avete mai avuto un processo in cui avete ricevuto un insieme di dati, e ci è voluto un po' di sforzo per ripulire i dati, in modo da avere l'aspetto che desiderate?

Il mondo dell'elaborazione dei dati e dello scambio di dati tra server e organizzazioni richiede un'attenzione particolare, l'idea di dati puliti di una persona potrebbe non essere quella di altre persone, per cui la differenza tra i due può portare a problemi di dati.

Experian ha avuto un eccellente articolo Che cos'è la pulizia dei dati? in quanto parla di diversi fattori sui dati:

  • Potrebbe non essere corretto
  • e incompleto
  •  e Duplicato

 

Una delle cose che hanno evidenziato è anche il fatto che, nell'ambito del GDPR, le organizzazioni devono concentrarsi maggiormente su dati accurati, completi e aggiornati.

Stiamo mettendo insieme diversi video in quest'area nel corso del tempo, così comincerete a vederli mentre salgono.

Si prega di gradire e condividere attraverso i pulsanti dei social media condivisi nella pagina qui, grazie per averlo guardato!

Analisi dei dati Irlanda