Che cos'è la Data Lineage?

La Data Lineage è il percorso dei dati della tua organizzazione.

Dalla sua creazione alla fonte, attraverso il suo movimento e la sua trasformazione dentro e fuori le piattaforme e i repository di dati all’interno e all’esterno della tua azienda, fino al suo luogo di riposo finale nelle applicazioni e nella business intelligence su cui si basano le operazioni e il processo decisionale.

La Data Lineage end-to-end fornisce una visione completa e dettagliata di come un determinato set di dati entra, attraversa e esce dall’organizzazione.

Può aiutarti a pianificare gli sforzi di modernizzazione dell’IT, risolvere i problemi di qualità dei dati, affrontare la governance dei dati e la conformità alle normative e visualizzare e comprendere rapidamente i dati disponibili e le relative relazioni all’interno della tua organizzazione.

Perché la Data Lineage è importante?

Rintracciare l’origine e il flusso dei dati è un compito arduo.

Man mano che la tua organizzazione accumula sistemi informativi, accumula anche punti di ingresso dati e regole di trasformazione per dati in continuo movimento.

Inoltre, gli strumenti di integrazione dei dati, gli strumenti di estrazione-trasformazione-caricamento (ETL), il codice procedurale e persino le API e i report di business intelligence (BI) aggregano e trasformano costantemente i dati.

Di conseguenza, è difficile compilare e comprendere manualmente la complicata rete di dati formata tra i sistemi all’interno della tua organizzazione e presentarla in un semplice flusso visivo.

La lineage automatizzata dei dati può fornire all’IT, ai team di governance dei dati e agli utenti aziendali la visibilità e il contesto attuali dei dati organizzativi per lavorare in modo più efficiente, prendere decisioni più solide e sfruttare e proteggere meglio i dati a loro disposizione.

La Data Lineage non solo consente di comprendere da dove provengono i dati, come vengono trasformati e come si spostano all’interno dell’organizzazione, ma può riunire attributi e governance tecnici e aziendali, mettere in luce i dati sensibili e altre classificazioni dei dati, fornire visibilità sulla qualità dei dati, incluso l’aiuto gli utenti conducono rapidamente l’analisi delle cause alla radice dei problemi di qualità dei dati e altro ancora.

In assenza di funzionalità di analisi dell’impatto automatizzate o in combinazione con queste funzionalità, la Data Lineage può anche essere estremamente utile per definire l’ambito e valutare l’impatto di potenziali attività di gestione dei dati, intelligence dei dati e migrazione della piattaforma dati.

Vantaggi della Data Lineage

Impatto sul business e visibilità del panorama dei dati

La consapevolezza e la comprensione dei dati disponibili e la loro trasformazione e flusso su più sistemi possono influenzare e supportare le decisioni aziendali che prendi.

Ad esempio, la comprensione del percorso e del contesto dei dati può aiutarti a rispondere alle domande nei report di business intelligence, tra cui chi possiede i dati, indicazioni sulla governance di cui essere a conoscenza e in che misura i dati sono adatti al tuo utilizzo.

Con la Data Lineage, puoi comprendere meglio i dati che sono allineati con iniziative aziendali critiche, dove e come i dati sono stati originati e se devono essere considerati attendibili dato il loro percorso di derivazione a monte, i punteggi di qualità dei dati associati e altro ancora.

Le organizzazioni possono anche vedere più facilmente le aree a rischio in cui le informazioni critiche sulla privacy potrebbero uscire dall’azienda.

Supporto di base per la governance dei dati

La proprietà, la responsabilità e la tracciabilità dei dati sono al centro di un solido programma di governance dei dati.

In combinazione con l’automazione, la Data Lineage può aiutare i proprietari dei dati, i data steward e gli utenti IT e aziendali a comprendere e convalidare l’utilizzo dei dati.

La data lineage automatizzato può fornire un data lineage orizzontale, dall’origine dati iniziale alla destinazione e tutte le trasformazioni dei dati intermedie, nonché un data lineage verticale che fornisce informazioni sulle associazioni tra risorse aziendali e tecniche.

La data lineage end-to-end, sia a monte che a valle, può rivelare quando e da chi sono state apportate modifiche e riunisce la governance tecnica e aziendale in una visuale centrale per tutti gli utenti di dati.

La data lineage è uno strumento di trasparenza essenziale per i team di governance dei dati.

Conformità normativa e verificabilità

I termini commerciali e le policy sui dati devono essere implementati tramite regole aziendali documentate all’interno della soluzione di data intelligence e governance.

È quindi possibile utilizzare la data lineage per tenere traccia della conformità normativa a tali regole, incorporando controlli di verificabilità e convalida ogni volta che i dati vengono trasformati.

La data lineage offre anche prove visive e rapide a clienti, dipendenti e revisori che stai prendendo sul serio le normative sulla conformità e le preoccupazioni sulla privacy e implementando programmi per supportare i tuoi sforzi.

Collaborazione tra team

La Data Lineage fornisce una visione comune dei dati all’interno della tua organizzazione e del loro percorso attraverso le linee di business e gli ambienti analitici legacy e moderni disparati.

Questa trasparenza dei dati e il loro utilizzo alimentano un’ulteriore condivisione dei dati e identificano chiaramente passaggi critici durante i progetti di integrazione dei dati.

Con un punto di riferimento centrale, i team di tutta l’organizzazione possono lavorare insieme in modo più efficiente per garantire che i dati all’interno dell’organizzazione siano pienamente sfruttati e adeguatamente protetti.

Visibilità e targeting della qualità dei dati

L’analisi delle cause principali è il primo passo per affrontare la scarsa qualità dei dati.

Con informazioni sulla Data Lineage nella qualità dei dati, i data steward possono tracciare il flusso di informazioni a ritroso per determinare se le standardizzazioni e le trasformazioni dei dati sono state eseguite correttamente.

La derivazione dei dati end-to-end consente di risolvere un problema di qualità dei dati alla fonte e consente ai team di monitorare in modo proattivo le principali pipeline di dati per garantire l’integrità dei dati.

La Data Lineage può anche fornire agli utenti aziendali una visione diretta dell’idoneità dei dati che crea fiducia.

Pianificazione informatica e gestione dei dati

La Data Lineage fornisce gli insight e le informazioni necessarie ai data architect e ai data engineer per comprendere lo stato così com’è dell’attuale panorama dei dati e gestire e pianificare in modo intelligente la modernizzazione dell’IT, le migrazioni del data warehouse e altre attività critiche.

Fornisce un ambito visivo del progetto su quante applicazioni, regole di trasformazione e business unit saranno interessate.

La visibilità delle classificazioni dei dati sensibili e di altro tipo, gli indicatori di qualità dei dati e il contesto di governance prontamente disponibile aiutano i team IT a gestire meglio i dati all’interno dell’organizzazione.

Preparazione dei dati

Per gli analisti di dati che preparano i dati, la Data Lineage fornisce la roadmap necessaria per garantire che i dati più adatti siano selezionati per l’analisi prevista.

La Data Lineage può fornire agli analisti una visuale dei sistemi, degli ambienti, delle tabelle e delle colonne disponibili.

Funge da punto di riferimento per la denominazione fisica e logica e può includere la qualità dei dati, indicatori di dati sensibili e barriere di governance per guidare in modo efficiente il lavoro degli analisti e velocizzare i tempi di preparazione dei dati.

La Data Lineage fa parte della governance dei dati?

La risposta a questa domanda è senz’altro un SÌ. Una governance dei dati efficace richiede che i glossari aziendali, i dizionari dei dati e le politiche sulla privacy dei dati risiedano in un’unica posizione centrale.

Ma man mano che il volume dei dati cresce in un’organizzazione, quegli oggetti finiscono in formati diversi in luoghi diversi, espressi in modi diversi.

La Data Lineage aiuta l’organizzazione a tracciarli, monitorarli e aggiornarli facilmente nel tempo.

La Data Lineage offre vantaggi nelle pratiche di governance come la coerenza della terminologia, la correzione della qualità dei dati, il controllo delle pipeline di dati e l’analisi della causa principale durante gli incidenti di dati.

Quali sono i diversi tipi di Data Lineage?

La Data Lineage include sia la lineage aziendale che la lineage tecnica.

La lineage aziendale si concentra sulla panoramica dell’origine dati per aiutare i team di governance dei dati e gli utenti aziendali a comprendere il flusso di dati tra diverse origini dati all’interno del panorama dei dati di un’organizzazione.

La lineage tecnica si concentra sul flusso di dati dell’organizzazione a livello di tabella e colonna, i livelli e le regole di trasformazione sottostanti, le tabelle/file temporanei e altri oggetti di interesse per gli utenti tecnici per comprendere il percorso dei dati di un’organizzazione.

Sia le viste di lineage aziendale che quelle tecniche sono fondamentali per le organizzazioni per comprendere il valore dei loro dati e valutare facilmente l’impatto delle modifiche. La capacità di eseguire il drill-down dalla lineage aziendale alla lineage tecnica, o viceversa, offre una maggiore flessibilità agli analisti di dati per ottenere rapidamente la giusta prospettiva del flusso di dati.

Non tutti i data lineage automatizzati vengono forniti allo stesso modo. Il lineage riferito può riunire il lineage in base ai nomi e alla composizione di elementi o attributi. La Data Lineage più dettagliata si basa sul codice a livello di elemento ed è più affidabile.

La Data Lineage si sta rapidamente evolvendo per diventare più intelligente, utilizzando l’intelligenza artificiale per acquisire modelli in codice difficile da analizzare.

Che cos’è un catalogo dati e una lineage?

Un catalogo di dati è una vista centralizzata delle risorse di dati all’interno di un’organizzazione utilizzata per gestire, sfruttare, proteggere, comprendere e socializzare i dati di un’organizzazione.

Un catalogo di dati comprende i metadati, o dati che descrivono i tuoi dati, che vengono raccolti dalle origini dati, dalle piattaforme dati, dalle applicazioni e dai sistemi di business intelligence in tutta la tua azienda.

Viene quindi ulteriormente arricchito con indicazioni sul contesto aziendale e sulla governance dei dati.

La catalogazione automatizzata dei dati sfrutta le funzionalità di rilevamento automatico dei dati e di raccolta dei metadati utilizzando connettori di dati specifici della piattaforma per i metadati dei dati inattivi.

La lineage automatizzata dei dati sfrutta i metadati dei dati inattivi.

Cattura anche i metadati dei dati in movimento, sfruttando le capacità di reverse engineering del connettore dati.

Analizza il codice coinvolto nello spostamento dei dati, come il codice procedurale e l’ETL, per mappare il flusso di dati all’interno di un’organizzazione.

La lineage risultante aiuta l’IT, i team di governance dei dati e gli utenti aziendali a comprendere visivamente le risorse di dati disponibili all’interno dell’organizzazione.

Specifica il percorso dei dati dall’origine dati iniziale alle applicazioni di destinazione finali, con tutte le trasformazioni dei dati intermedie.

Che cos’è uno strumento di Data Lineage?

Uno strumento di Data Lineage utilizza l’automazione per scoprire e mappare il flusso di dati dalle origini dati iniziali, attraverso la trasformazione e l’elaborazione, fino alle destinazioni finali.

Ad esempio, nella mappatura delle pipeline di dati che popolano il data warehouse, uno strumento di Data Lineage potrebbe eseguire il reverse engineering delle attività ETL che precedono immediatamente il caricamento dei dati nel data warehouse di destinazione.

Iterando attraverso tutte le fonti di dati, lo strumento accumula un elenco di attività e documenta ogni pezzo di lineage scoperto.

Alla fine della sequenza, il processo avrà eseguito la mappatura inversa delle pipeline per popolare quel data warehouse.

Gli strumenti automatizzati rendono pratico raccogliere e mantenere aggiornata la Data Lineage. L’utilizzo di questi tool automatici, consentono ai data steward di risparmiare fino al 95% del tempo tradizionalmente attribuito ai metodi manuali.

Related Posts