Cos'è il data cleansing (pulizia dei dati)

Il data cleansing (noto anche come pulitura o pulizia dei dati) è il processo di ricerca e rimozione di errori, incoerenze, duplicati e voci mancanti dai dati per aumentare la coerenza e la qualità.

Anche se le organizzazioni possono essere proattive sulla qualità dei dati nella fase di raccolta, possono comunque esserci errori o dati sporchi.

Ciò può essere dovuto a una serie di problemi:

Duplicazioni dovute a più origini dati senza corrispondenza
Errori di inserimento dati con errori di ortografia e incoerenze
Dati incompleti o campi mancanti
Errori di punteggiatura o simboli non conformi
Dati obsoleti

La pulizia dei dati affronta questi problemi e, utilizzando una varietà di metodi, pulisce i dati e garantisce che corrispondano alle regole aziendali.

Perché la pulizia dei dati è importante nell’ambiente aziendale?

I dati provengono tipicamente da un’ampia varietà di fonti e in una vasta gamma di formati.

Potrebbero esserci dati inseriti manualmente dal team, raccolta automatica di dati da un sito Web in cui i campi vengono compilati dagli utenti, informazioni da dispositivi Internet of Things (IoT) e molte altre fonti. A meno che non si presti molta attenzione alla raccolta dei dati in fase di pianificazione, la situazione può volgere rapidamente verso il disastro.

Un data lake può diventare rapidamente una palude di dati, piena di duplicati, errori e problemi.

Che cos’è un data lake

Immagina che un utente compili un modulo online ed inserisca in modo errato il proprio indirizzo e-mail. Rapidamente, se ne renderà conto e lo compilerà di nuovo con l’indirizzo e-mail corretto. Il sistema lo registrerà come due persone separate, pur avendo tutti gli stessi dettagli. Mentre il micro-risultato di questo significa che una persona a caso riceverà un’e-mail a cui non si è registrata, su scala macro, questo diventa un problema. Immagina la dimensione dello spazio di archiviazione necessario per ospitare tutti questi campi extra o il lavoro necessario per rimuovere la voce errata.

Quindi, considera le previsioni o la diagnostica scadenti durante l’esecuzione dell’analisi. La scarsa qualità dei dati rende le informazioni completamente inutilizzabili.

I data scientist devono dedicare la maggior parte del loro tempo semplicemente alla pulizia dei dati. Eppure, sono una risorsa costosa che dovrebbe essere utilizzata meglio.

La necessità di pulizia dei dati aumenta con l’aumentare del numero di origini dati. Le organizzazioni possono disporre di dati distribuiti tra data warehouse, applicazioni e persino computer individuali. Consolidare tutti i set di dati, eliminare i duplicati e rimuovere i dati difettosi è di vitale importanza.

Tuttavia, questo non può essere fatto manualmente, soprattutto se l’organizzazione dispone di enormi quantità di dati. Quindi, come è possibile eseguire la pulizia dei dati in modo completo, in modo conveniente, replicabile e tempestivo? L’utilizzo dei dipendenti non è efficiente e può creare altri errori.

Come eseguire la pulizia dei dati

Idealmente, l’organizzazione dovrebbe utilizzare regole aziendali per definire vincoli precisi sui dati nella fase di immissione. Ciò significa che dovrebbero esserci una serie di regole come:

Campi di convalida, ovvero chiedere all’utente di immettere il proprio indirizzo e-mail due volte e rifiutarlo se diverso
Regole rigorose sull’immissione dei dati come la formattazione coerente dei numeri di telefono
Trasformare i dati in fase di caricamento in modo che siano coerenti
Stabilire aspettative, linee guida e processi per la raccolta e l’archiviazione dei dati

Tuttavia, se un’organizzazione sta configurando un nuovo sistema, unendo set di dati o persino incorporando un nuovo batch di dati, deve applicare strategie per ripulire i dati sporchi. La pulizia dei dati può essere eseguita in vari modi. Il modo in cui un’organizzazione sceglie di farlo, dipende dalle strutture di dati correnti e dai risultati che desidera ottenere.

Il modo di gran lunga più efficiente per la pulizia dei dati consiste nell’utilizzare una gamma di tecniche di intelligenza artificiale (AI) che identificano e risolvono automaticamente i problemi.

Tipi di pulizia dei dati

Esistono due tipologie principali di pulizia dei dati: pulizia tradizionale e big data.

Pulizia dei dati tradizionale

I metodi tradizionali di pulizia dei dati non sono adatti a gestire un’enorme quantità di dati.

Storicamente, quando le organizzazioni non producevano migliaia o milioni di record di dati, questi metodi erano adatti. Esistono due strategie principali per pulire le origini dati di piccole dimensioni.

Il primo metodo è un sistema interattivo che integra il rilevamento degli errori e la trasformazione dei dati, utilizzando un’interfaccia simile a un foglio di calcolo. L’utente può definire domini personalizzati e quindi specificare algoritmi per applicare queste regole di dominio. Ciò richiede sforzi manuali dettagliati e precisi.

Esistono altri metodi, ma questi si concentrano principalmente sull’eliminazione dei duplicati.

Questo quadro ha un approccio sistematico di:

Pre-elaborazione: le anomalie dei dati vengono rilevate e rimosse
Elaborazione: le regole vengono applicate ai dati, ad esempio come l’identificazione duplicata
Convalida: un essere umano controlla i risultati dell’elaborazione

Sebbene queste strategie possano aver funzionato in passato, richiedono molto tempo e non garantiscono una buona qualità dei dati allo stesso modo dei moderni strumenti di pulizia dei dati.

Pulizia dei dati per i Big Data

La pulizia dei big data è la sfida più grande che molti settori devono affrontare. È già un volume gigantesco e, a meno che i sistemi non vengano messi in atto ora, il problema continuerà a crescere.

Esistono diversi modi per gestire potenzialmente questo problema e, per essere efficaci ed efficienti, devono essere completamente automatizzati, senza input umani.

Strumenti di pulizia specializzati

Questi in genere si occupano di un particolare dominio, principalmente dati di nome e indirizzo, o si concentrano sull’eliminazione dei duplicati. Numerosi strumenti commerciali si concentrano sulla pulizia di questo tipo di dati. Questi strumenti estraggono i dati, li suddividono nei singoli elementi (come numero di telefono, indirizzo e nome), convalidano le informazioni sull’indirizzo e i codici postali e quindi abbinano i dati. Una volta che i record corrispondono, vengono uniti e presentati come uno solo.

Strumenti ETL (Extract Transform and Load)

Un gran numero di strumenti organizzativi supporta un processo ETL per i data warehouse. Questo processo estrae i dati da un’origine, li trasforma in un altro formato e quindi li carica nel set di dati di destinazione. La fase di “trasformazione” è dove avviene la pulizia. Vengono rimosse le incoerenze, gli errori e rilevate le informazioni mancanti. A seconda del software, può esserci un numero enorme di strumenti di pulizia dei dati all’interno della fase di trasformazione.

All’interno di questi moduli, ci sono anche diversi modi in cui gli errori possono essere rilevati.

Metodo statistico per il rilevamento degli errori

I metodi statistici implicano l’identificazione di record anomali, utilizzando i principi matematici di medie, mediane, deviazioni standard e intervallo. Quando i record si trovano al di fuori delle norme previste o non sono conformi ai modelli identificati nei dati esistenti, è probabile che questi record siano valori anomali. Questi record vengono solitamente rimossi per evitare confusione. Sebbene questo approccio possa generare falsi positivi, è semplice e veloce e può essere utilizzato insieme ad altri metodi.

Metodo basato su modelli per il rilevamento degli errori

Il metodo basato sui modelli comporta l’identificazione di campi anomali che non sono conformi a modelli già stabiliti nei dati. Tecniche come il partizionamento, il clustering e la classificazione vengono utilizzate per identificare modelli che si applicano alla maggior parte dei record.

Metodo basato sulle regole di associazione

Le regole di associazione (dichiarazioni if-then) possono mostrare la probabilità di una relazione tra i record. Se sono presenti dati che non rientrano in queste regole di associazione, vengono considerati valori anomali.

Vantaggi della pulizia dei dati

La pulizia dei dati garantisce la qualità dei dati, che è vitale per qualsiasi attività. Ci sono molti vantaggi nella pulizia dei dati e nella qualità dei dati.

Processo decisionale basato sui dati

Un livello più elevato di qualità dei dati significa che le organizzazioni possono prendere decisioni molto migliori. L’utilizzo di dati di qualità elimina il rischio di previsioni sbagliate o decisioni incoerenti. Quando i dati sono accurati, completi e aggiornati, lo sono anche le decisioni che ne derivano.

Migliore targeting del cliente

Il marketing per il mondo intero è come lanciare un piatto di spaghetti su un muro e sperare che qualcosa si attacchi. È uno spreco di risorse. Buoni dati consentono a un’organizzazione di approfondire, identificare il loro avatar ideale e prenderli di mira. Vedere chi sono gli acquirenti di un prodotto o servizio e quindi trovare potenziali clienti con gli stessi attributi è molto più efficiente.

Tuttavia, se la quantità di dati è troppo piccola o le informazioni non sono corrette, ciò non è semplicemente possibile.

Campagne di marketing più efficaci

Dati di buona qualità possono anche migliorare i contenuti e le campagne di marketing di un’organizzazione. Più i dipartimenti marketing conoscono il loro pubblico, più possono indirizzarli con contenuti e pubblicità su misura.

Migliori relazioni con i clienti

Chi è il cliente dei sogni dell’organizzazione? Se i dati esistono in modo accessibile e coerente, è facile raccogliere informazioni sugli avatar dell’organizzazione. Quali sono i loro interessi, bisogni e preferenze? Sapere tutto questo aiuta a rafforzare le relazioni.

Avere un’unica fonte di dati sui clienti è anche un ottimo modo per gestirli in modo più efficace. Nessun rischio di e-mail duplicate inviate e nessun targeting scadente. Questo mantiene il cliente felice.

Implementazione dei dati più semplice

I dati di alta qualità sono il Santo Graal delle organizzazioni. È molto più facile da usare, comporta meno errori o esiti problematici ed è coerente e completo. Una volta che i dati sono tutti nella stessa forma e sono stati ripuliti, quasi tutti i processi possono essere applicati ad essi in pochi secondi.

Vantaggio competitivo

Avere una qualità dei dati superiore rispetto alla concorrenza o utilizzare tali dati in modo efficace e creativo crea enormi vantaggi rispetto alla concorrenza. Buoni dati aiutano a prevedere gli eventi, spiegare quelli precedenti e indirizzare i clienti in modo molto più efficace.

Aumento della redditività

Anche se il processo per ottenere dati di alta qualità può essere costoso, il ritorno sull’investimento può essere enorme. Dati validi aiutano le organizzazioni a indirizzare meglio i clienti e a creare campagne di marketing più efficaci ed economiche. I dati possono aiutare a rallentare il tasso di abbandono dei clienti e ad aumentare la quota di mercato. Mostra ad un’organizzazione dove va il denaro, da dove viene e dove utilizzare le risorse.

Sfide nella pulizia dei dati

Ci sono diverse sfide intrinseche alla pulizia dei dati.

È probabile che gran parte dei dati raccolti dalle organizzazioni sia in qualche modo sporca. Pulire manualmente i dati sarebbe impossibile, laborioso, dispendioso in termini di tempo ed estremamente soggetto a errori. Questo è il motivo per cui l’utilizzo di strumenti potenti e automatizzati è importante e sono diventati l’unico modo conveniente e pratico per ottenere un set di dati coerente e di qualità.

Ma anche in questo ci sono enormi problemi da risolvere. Con i dati che stanno rapidamente diventando la più grande risorsa di un’organizzazione, ci sono motivi considerevoli per investire tempo e denaro nella risoluzione di problemi comuni.

Nessuna garanzia di accuratezza

Sebbene l’intelligenza artificiale (AI) sia molto potente, non è infallibile. Impara solo dalle regole e dalle informazioni che gli vengono fornite dagli esseri umani. Inoltre, non può applicare la logica umana o utilizzare l’euristica di base.

Ad esempio, per rimuovere i duplicati, un sistema potrebbe suddividere i dati in parti. Vede che M. Rossi e Mario R. vivono allo stesso indirizzo e decide che questa persona è Mario Rossi e unisce i record.

Tuttavia, potrebbe vedere che G. Bianchi e Roberto V. vivono allo stesso indirizzo e provare a unirli; tuttavia, si tratta di due entità separate che vivono insieme e dovrebbero essere trattate allo stesso modo, ovvero separatamente.

Considera i valori anomali nei dati. Un sistema può considerare una voce come un valore anomalo quando in realtà è una caratteristica. Rimuovendo questo presunto valore anomalo, ai dati manca ora un’informazione importante.

Inoltre, se i dati devono essere riparati, l’intelligenza artificiale apporterà le correzioni che ritiene necessarie. Tuttavia, non c’è modo di garantire che siano corretti e questo potrebbe semplicemente aggiungere nuovi errori nell’atto di riparare i dati sporchi.

Dati distribuiti

Se un’organizzazione non ha creato un sistema completo che garantisca che tutti i dati si trovino in un unico posto o siano accessibili da un unico posto, la pulizia dei dati non può essere eseguita. Gli attuali strumenti di pulizia dei dati non possono essere scalati per connettersi con migliaia di macchine o applicazioni diverse.

Varietà di dati

Un’organizzazione può avere una grande varietà di dati:

Video
Immagini
Informazioni derivate dai social media
Documenti Excel
Diverse applicazioni in una varietà di formati

In che modo uno strumento di pulizia dei dati può ripulire tutti questi diversi formati? A meno che non siano tutti resi coerenti mediante l’uso di un altro strumento, semplicemente non è possibile.

Ci sono soluzioni a questi problemi. Un’analisi dell’integrità dei dati può scoprire molti possibili errori in un set di dati, ma non può affrontare errori più complessi. Gli errori che coinvolgono le relazioni tra i campi possono essere molto difficili da trovare. Questi tipi di errori richiedono un’analisi più approfondita.

Sapere come dovrebbero apparire i dati e le tendenze può consentire la scoperta di dati sporchi. Tuttavia, i dati del mondo reale possono essere molto diversi e raramente si conformano in modo coerente a una distribuzione gaussiana standard. Questo problema può essere compensato utilizzando una varietà di metodi per rilevare i problemi e provare a risolverli.

La pulizia dei dati è la più grande sfida per le organizzazioni contemporanee?

Sono state sviluppate una serie di tecniche per affrontare il problema della pulizia dei dati. Sebbene siano stati creati molti strumenti per automatizzare il processo, si tratta ancora in gran parte di un approccio interattivo che richiede l’intervento umano.

Dati di buona qualità sono di vitale importanza per le organizzazioni. Libera tempo prezioso per i data scientist, fornisce insight e previsioni più accurate e riduce il rischio di processi decisionali sbagliati. Il problema è come ripulire i dati in modo conveniente e tempestivo che si traduca in dati coerenti e accurati e la risposta sarà diversa per ogni organizzazione.

Cos’è il data cleansing (pulizia dei dati)

Perché la pulizia dei dati è importante nell’ambiente aziendale?

Come eseguire la pulizia dei dati