Cos'è la riconciliazione dei dati?
La riconciliazione dei dati (DR) è definita come un processo di verifica dei dati durante la migrazione dei dati. In questo processo i dati di destinazione vengono confrontati con i dati di origine per garantire che l'architettura di migrazione stia trasferendo i dati. Convalida e riconciliazione dei dati (DVR) indica una tecnologia che utilizza modelli matematici per elaborare le informazioni.
In questo tutorial imparerai,
- Cos'è la riconciliazione dei dati?
- Perché è importante la riconciliazione dei dati?
- Terminologia associata alla riconciliazione dei dati
- Storia della riconciliazione dei dati
- Processo di riconciliazione dei dati
- Best practice per l'utilizzo della riconciliazione dei dati
- Strumenti di riconciliazione dei dati
Perché è importante la riconciliazione dei dati?
Nel processo di migrazione dei dati è possibile che vengano commessi errori nella logica di mappatura e trasformazione. Problemi come errori di runtime come interruzioni di rete o transazioni interrotte possono danneggiare i dati.
Questo tipo di errori può far sì che i dati vengano lasciati in uno stato non valido. Questi possono creare una serie di problemi come:
- Record mancanti
- Valori mancanti
- Valori errati
- Record duplicati
- Valori formattati male
- Relazioni interrotte tra tabelle o sistemi
Ecco alcuni motivi importanti per utilizzare il processo di riconciliazione dei dati:
- L'utilizzo della riconciliazione dei dati consente di estrarre informazioni accurate e affidabili sullo stato del processo del settore dai dati di misurazione grezzi.
- Consente inoltre di produrre un unico insieme coerente di dati che rappresenta l'operazione di processo più probabile.
- Porta anche a informazioni imprecise e problemi con il servizio clienti.
- La riconciliazione dei dati è importante anche per l'integrazione del controllo aziendale.
Oltre a quanto sopra, ci sono molti vantaggi / vantaggi della riconciliazione dei dati.
Terminologia associata alla riconciliazione dei dati
Errore grossolano | Errori grossolani nelle misurazioni. Riflette solo errori di polarizzazione, guasti dello strumento o picchi di rumore anomali se si utilizza solo un breve periodo di calcolo della media. |
Osservabilità | L'analisi dell'osservabilità può fornire dettagli su quali variabili possono essere determinate per un dato insieme di vincoli e un insieme di misurazioni. |
Varianza | La varianza è una misura della variabilità di un sensore. |
Ridondanza | Ti aiuta a determinare quali misurazioni dovrebbero essere stimate da altre variabili utilizzando le equazioni dei vincoli. |
Storia della riconciliazione dei dati
Ecco i punti di riferimento essenziali della storia della riconciliazione dei dati.
- Il DVR (Data validation and Reconciliation) è iniziato nei primi anni '60. Aveva lo scopo di chiudere i bilanci dei materiali nella produzione in cui erano disponibili misurazioni grezze per tutte le variabili.
- Alla fine degli anni '60, tutte le variabili non misurate sono state prese in considerazione nel processo di riconciliazione dei dati.
- Le dinamiche quasi-stazionarie per il filtraggio e la stima parallela dei parametri nel tempo sono state introdotte nel 1977 da Stanley e Mah.
- Dynamic DVR è stato sviluppato come modello di ottimizzazione non lineare pubblicato da Liebman nell'anno 1992
Processo di riconciliazione dei dati
I tipi di metodi di riconciliazione dei dati sono:
Riconciliazione dei dati anagrafici
La riconciliazione dei dati anagrafici è una tecnica per riconciliare solo i dati anagrafici tra origine e destinazione. I dati principali sono per lo più immutabili o cambiano lentamente in natura e nessuna operazione di aggregazione viene eseguita sul set di dati.
Alcuni esempi comuni di riconciliazione dei dati anagrafici sono:
- Numero totale di righe
- Cliente totale in origine e destinazione
- Numero totale di elementi nell'origine e nella destinazione
- Conteggio totale delle righe in base a una determinata condizione
- Numero di utenti attivi
- Numero di utenti inattivi ecc.
Precisione dell'attività
- Devi assicurarti che le transazioni siano valide e abbiano uno scopo corretto.
- È necessario verificare se le transazioni sono state correttamente autorizzate.
Riconciliazione dei dati transazionali
I dati transazionali costituiscono la base dei report BI. Pertanto, qualsiasi discrepanza nei dati transazionali può avere un impatto diretto sull'affidabilità del report e dell'intero sistema BI in generale.
Il metodo di riconciliazione dei dati transazionali viene utilizzato in termini di somma totale che impedisce qualsiasi discrepanza causata dalla modifica della granularità delle dimensioni qualificanti.
Esempi di misure utilizzate per la riconciliazione dei dati transazionali dovrebbero essere:
- Somma del reddito totale calcolato dalla fonte e dall'obiettivo
- Somma dell'intero articolo venduto, calcolato da origine e destinazione, ecc.
Riconciliazione automatica dei dati:
In un grande sistema di gestione del data warehouse, è conveniente automatizzare il processo di riconciliazione dei dati rendendolo parte integrante del caricamento dei dati. Ti consente di mantenere tabelle di metadati di caricamento separate. Inoltre, la riconciliazione automatizzata manterrà tutte le parti interessate informate sulla validità dei rapporti.
Best practice per l'utilizzo della riconciliazione dei dati
- Il processo di riconciliazione dei dati dovrebbe mirare a correggere gli errori di misurazione.
- Gli errori grossolani dovrebbero essere zero per rendere efficiente il processo di riconciliazione dei dati.
- L'approccio standard della riconciliazione dei dati si è basato su semplici conteggi dei record per tenere traccia del fatto che il numero di record target sia stato migrato o meno.
- La soluzione di migrazione dei dati offre capacità di riconciliazione simili e funzionalità di prototipazione dei dati che offre test di riconciliazione dei dati del volume completo.
Strumenti di riconciliazione dei dati
1) OpenRefine
OpenRefine, precedentemente noto come Google Refine, è un utile framework di riconciliazione del database. Ti consente di pulire e trasferire dati disordinati.
Link per il download: https://openrefine.org/
2) TIBCO Clarity
Questo strumento di riconciliazione dei dati offre servizi software on-demand dal Web sotto forma di Software-as-a-service. Consente agli utenti di convalidare i dati e pulire i dati. Fornisce funzionalità complete di test di riconciliazione. Ampiamente usato nel processo ETL.
Link per il download: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure è un software di pulizia dei dati conveniente e accurato. Consente di pulire una grande quantità di dati, rimuovere i duplicati, correggere e standardizzare per progettare il set di dati finale.
Link per il download: https://winpure.com/
Sommario
- La convalida e la riconciliazione dei dati (DVR) è una tecnologia che utilizza modelli matematici per elaborare le informazioni.
- L'utilizzo della riconciliazione dei dati consente di estrarre informazioni accurate e affidabili sullo stato del processo del settore dai dati di misurazione grezzi.
- Errore grossolano, osservabilità, varianza, ridondanza sono termini importanti utilizzati nel processo di riconciliazione dei dati
- La convalida e la riconciliazione dei dati sono iniziate all'inizio degli anni '60.
- Tre tipi di metodi di riconciliazione dei dati sono 1) Riconciliazione dei dati anagrafici 2) Riconciliazione dei dati transazionali 3) Riconciliazione automatica dei dati
- Gli errori grossolani dovrebbero essere zero per rendere efficiente il processo di riconciliazione dei dati.
- Alcuni importanti strumenti di riconciliazione dei dati sono: 1) OpenRefine 2) TIBCO 3) Winpure
- Questo metodo è ampiamente utilizzato nel monitoraggio delle prestazioni e dei processi nell'industria petrolifera / nucleare / chimica