Architettura, concetti e componenti del data warehouse

Sommario:

Anonim

Concetti di data warehouse

Il concetto di base di un Data Warehouse è quello di facilitare una singola versione della verità per un'azienda per il processo decisionale e le previsioni. Un Data Warehouse è un sistema informativo che contiene dati storici e commutativi da una o più fonti. I concetti di data warehouse semplificano il processo di reporting e analisi delle organizzazioni.

Caratteristiche del data warehouse

I concetti di data warehouse hanno le seguenti caratteristiche:

  • Orientato al soggetto
  • Integrato
  • Variante temporale
  • Non volatile

Orientato al soggetto

Un data warehouse è orientato al soggetto in quanto offre informazioni su un tema anziché sulle operazioni in corso delle aziende. Questi soggetti possono essere vendite, marketing, distribuzioni, ecc.

Un data warehouse non si concentra mai sulle operazioni in corso. Invece, ha posto l'accento sulla modellazione e l'analisi dei dati per il processo decisionale . Fornisce inoltre una visione semplice e concisa dell'argomento specifico escludendo i dati che non sono utili a supportare il processo decisionale.

Integrato

In Data Warehouse, integrazione significa stabilire un'unità di misura comune per tutti i dati simili dal database dissimile. I dati devono anche essere archiviati nel Datawarehouse in modo comune e universalmente accettabile.

Un data warehouse viene sviluppato integrando dati da varie fonti come un mainframe, database relazionali, file flat, ecc. Inoltre, deve mantenere convenzioni di denominazione, formato e codifica coerenti.

Questa integrazione aiuta nell'analisi efficace dei dati. Deve essere garantita la coerenza nelle convenzioni di denominazione, nelle misure degli attributi, nella struttura di codifica, ecc. Considera il seguente esempio:

Nell'esempio precedente, ci sono tre diverse applicazioni etichettate A, B e C. Le informazioni memorizzate in queste applicazioni sono Sesso, Data e Saldo. Tuttavia, i dati di ciascuna applicazione vengono archiviati in modo diverso.

  • Nell'applicazione Un campo di genere memorizza valori logici come M o F
  • Nell'applicazione B il campo sesso è un valore numerico,
  • Nell'applicazione Applicazione C, campo sesso memorizzato sotto forma di valore di carattere.
  • Lo stesso è il caso di Data e saldo

Tuttavia, dopo il processo di trasformazione e pulizia, tutti questi dati vengono archiviati in un formato comune nel Data Warehouse.

Variante temporale

L'orizzonte temporale per il data warehouse è piuttosto ampio rispetto ai sistemi operativi. I dati raccolti in un data warehouse vengono riconosciuti con un periodo particolare e offrono informazioni dal punto di vista storico. Contiene un elemento di tempo, esplicitamente o implicitamente.

Uno di questi luoghi in cui la varianza temporale di visualizzazione dei dati di Datawarehouse si trova nella struttura della chiave del record. Ogni chiave primaria contenuta con il DW dovrebbe avere implicitamente o esplicitamente un elemento di tempo. Come il giorno, il mese della settimana, ecc.

Un altro aspetto della varianza temporale è che una volta inseriti i dati nel magazzino, non possono essere aggiornati o modificati.

Non volatile

Il data warehouse è anche non volatile, il che significa che i dati precedenti non vengono cancellati quando vengono inseriti nuovi dati.

I dati sono di sola lettura e periodicamente aggiornati. Questo aiuta anche ad analizzare i dati storici e capire cosa e quando è successo. Non richiede processi di transazione, ripristino e meccanismi di controllo della concorrenza.

Le attività come l'eliminazione, l'aggiornamento e l'inserimento che vengono eseguite in un ambiente applicativo operativo vengono omesse nell'ambiente del data warehouse. Solo due tipi di operazioni sui dati eseguite nel Data Warehousing sono

  1. Caricamento dei dati
  2. Accesso ai dati

Ecco alcune delle principali differenze tra Application e Data Warehouse

Applicazione operativa Data Warehouse
È necessario codificare un programma complesso per garantire che i processi di aggiornamento dei dati mantengano un'elevata integrità del prodotto finale. Questo tipo di problemi non si verifica perché l'aggiornamento dei dati non viene eseguito.
I dati vengono inseriti in una forma normalizzata per garantire una ridondanza minima. I dati non vengono archiviati in forma normalizzata.
La tecnologia necessaria per supportare problemi di transazioni, ripristino dei dati, rollback e risoluzione poiché il suo deadlock è piuttosto complesso. Offre relativa semplicità nella tecnologia.

Architettura del data warehouse

L'architettura del data warehouse è complessa in quanto è un sistema informativo che contiene dati storici e commutativi provenienti da più fonti. Esistono 3 approcci per la creazione di livelli di data warehouse: livello singolo, due livelli e tre livelli. Questa architettura a 3 livelli di Data Warehouse è spiegata di seguito.

Architettura a livello singolo

L'obiettivo di un singolo livello è ridurre al minimo la quantità di dati archiviati. Questo obiettivo è rimuovere la ridondanza dei dati. Questa architettura non è usata frequentemente nella pratica.

Architettura a due livelli

L'architettura a due livelli è uno dei livelli del data warehouse che separa le fonti fisicamente disponibili e il data warehouse. Questa architettura non è espandibile e inoltre non supporta un gran numero di utenti finali. Ha anche problemi di connettività a causa delle limitazioni di rete.

Architettura del data warehouse a tre livelli

Questa è l'architettura di Data Warehouse più utilizzata.

Consiste nel livello superiore, intermedio e inferiore.

  1. Livello inferiore: il database dei server Datawarehouse come livello inferiore. Di solito è un sistema di database relazionale. I dati vengono puliti, trasformati e caricati in questo livello utilizzando strumenti di back-end.
  2. Livello intermedio: il livello intermedio nel data warehouse è un server OLAP implementato utilizzando il modello ROLAP o MOLAP. Per un utente, questo livello di applicazione presenta una vista astratta del database. Questo livello funge anche da mediatore tra l'utente finale e il database.
  3. Livello superiore : il livello superiore è un livello client front-end. Il livello superiore sono gli strumenti e l'API che connetti e ottieni i dati dal data warehouse. Potrebbe essere strumenti di query, strumenti di reporting, strumenti di query gestite, strumenti di analisi e strumenti di data mining.

Componenti del datawarehouse

Impareremo a conoscere i componenti del datawarehouse e l'architettura del data warehouse con il diagramma come mostrato di seguito:

Architettura del data warehouse

Il Data Warehouse si basa su un server RDBMS che è un repository centrale di informazioni circondato da alcuni componenti chiave del Data Warehousing per rendere l'intero ambiente funzionale, gestibile e accessibile.

Esistono principalmente cinque componenti del data warehouse:

Database del data warehouse

Il database centrale è la base dell'ambiente di data warehousing. Questo database è implementato sulla tecnologia RDBMS. Tuttavia, questo tipo di implementazione è vincolato dal fatto che il sistema RDBMS tradizionale è ottimizzato per l'elaborazione di database transazionali e non per il data warehousing. Ad esempio, query ad hoc, join multi-tabella, aggregazioni richiedono molte risorse e rallentano le prestazioni.

Pertanto, vengono utilizzati approcci alternativi al database come elencato di seguito-

  • In un datawarehouse, i database relazionali vengono distribuiti in parallelo per consentire la scalabilità. I database relazionali paralleli consentono anche la memoria condivisa o il modello del nulla condiviso su varie configurazioni multiprocessore o processori massicciamente paralleli.
  • Nuove strutture di indice vengono utilizzate per bypassare la scansione della tabella relazionale e migliorare la velocità.
  • Utilizzo di database multidimensionali (MDDB) per superare eventuali limitazioni poste a causa dei modelli di Data Warehouse relazionali. Esempio: Essbase di Oracle.

Strumenti di approvvigionamento, acquisizione, pulizia e trasformazione (ETL)

Gli strumenti di acquisizione, trasformazione e migrazione dei dati vengono utilizzati per eseguire tutte le conversioni, i riepiloghi e tutte le modifiche necessarie per trasformare i dati in un formato unificato nel datawarehouse. Sono anche chiamati strumenti di estrazione, trasformazione e caricamento (ETL).

La loro funzionalità include:

  • Anonimizza i dati secondo le disposizioni normative.
  • Eliminazione dei dati indesiderati nei database operativi dal caricamento nel data warehouse.
  • Cerca e sostituisci nomi e definizioni comuni per i dati provenienti da fonti diverse.
  • Calcolo di riepiloghi e dati derivati
  • In caso di dati mancanti, popolarli con i valori predefiniti.
  • Dati ripetuti deduplicati provenienti da più origini dati.

Questi strumenti di estrazione, trasformazione e caricamento possono generare cron job, background job, programmi Cobol, script shell, ecc. Che aggiornano regolarmente i dati nel datawarehouse. Questi strumenti sono utili anche per mantenere i metadati.

Questi strumenti ETL devono affrontare le sfide dell'eterogeneità di database e dati.

Metadati

Il nome Meta Data suggerisce alcuni concetti di Data Warehousing tecnologico di alto livello. Tuttavia, è abbastanza semplice. I metadati sono dati sui dati che definiscono il data warehouse. Viene utilizzato per la creazione, la manutenzione e la gestione del data warehouse.

Nell'architettura del data warehouse, i metadati svolgono un ruolo importante in quanto specificano l'origine, l'utilizzo, i valori e le caratteristiche dei dati del data warehouse. Definisce inoltre come i dati possono essere modificati ed elaborati. È strettamente connesso al data warehouse.

Ad esempio, una riga nel database delle vendite può contenere:

4030 KJ732 299.90

Questo è un dato senza senso fino a quando non consultiamo il Meta che ci dice che lo era

  • Numero modello: 4030
  • ID agente di vendita: KJ732
  • Importo totale delle vendite di $ 299,90

Pertanto, i Meta Data sono ingredienti essenziali nella trasformazione dei dati in conoscenza.

I metadati aiutano a rispondere alle seguenti domande

  • Quali tabelle, attributi e chiavi contiene il data warehouse?
  • Da dove provengono i dati?
  • Quante volte i dati vengono ricaricati?
  • Quali trasformazioni sono state applicate con la pulizia?

I metadati possono essere classificati nelle seguenti categorie:

  1. Meta dati tecnici : questo tipo di metadati contiene informazioni sul magazzino utilizzate dai progettisti e dagli amministratori del data warehouse.
  2. Meta dati aziendali: questo tipo di metadati contiene dettagli che offrono agli utenti finali un modo semplice per comprendere le informazioni archiviate nel data warehouse.

Strumenti di query

Uno degli obiettivi principali del data warehousing è fornire informazioni alle aziende per prendere decisioni strategiche. Gli strumenti di query consentono agli utenti di interagire con il sistema di data warehouse.

Questi strumenti rientrano in quattro diverse categorie:

  1. Strumenti di query e reportistica
  2. Strumenti per lo sviluppo di applicazioni
  3. Strumenti di data mining
  4. Strumenti OLAP

1. Strumenti di query e reportistica:

Gli strumenti di query e reporting possono essere ulteriormente suddivisi in

  • Strumenti di segnalazione
  • Strumenti di query gestite

Strumenti di segnalazione:

Gli strumenti di reporting possono essere ulteriormente suddivisi in strumenti di reporting di produzione e scrittore di report desktop.

  1. Scrittori di report: questo tipo di strumento di reporting sono strumenti progettati per gli utenti finali per la loro analisi.
  2. Reportistica di produzione: questo tipo di strumenti consente alle organizzazioni di generare report operativi regolari. Supporta anche lavori batch ad alto volume come la stampa e il calcolo. Alcuni strumenti di reporting popolari sono Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Strumenti di query gestite:

Questo tipo di strumenti di accesso aiuta gli utenti finali a risolvere gli intoppi nel database e nella struttura SQL e del database inserendo meta-layer tra utenti e database.

2. Strumenti di sviluppo dell'applicazione:

A volte gli strumenti grafici e analitici incorporati non soddisfano le esigenze analitiche di un'organizzazione. In questi casi, i report personalizzati vengono sviluppati utilizzando gli strumenti di sviluppo dell'applicazione.

3. Strumenti di data mining:

Il data mining è un processo per scoprire nuove correlazioni significative, modelli e tendenze estraendo grandi quantità di dati. Gli strumenti di data mining vengono utilizzati per rendere automatico questo processo.

4. Strumenti OLAP:

Questi strumenti si basano sui concetti di un database multidimensionale. Consente agli utenti di analizzare i dati utilizzando viste multidimensionali elaborate e complesse.

Architettura del bus del data warehouse

Il bus del data warehouse determina il flusso di dati nel tuo magazzino. Il flusso di dati in un data warehouse può essere classificato come afflusso, flusso verso l'alto, flusso verso il basso, flusso in uscita e meta flusso.

Durante la progettazione di un bus dati, è necessario considerare le dimensioni condivise, i fatti nei data mart.

Data Mart

Un data mart è un livello di accesso utilizzato per inviare i dati agli utenti. Viene presentato come un'opzione per data warehouse di grandi dimensioni in quanto la sua costruzione richiede meno tempo e denaro. Tuttavia, non esiste una definizione standard di data mart che differisca da persona a persona.

In una parola semplice Data mart è una filiale di un data warehouse. Il data mart viene utilizzato per la partizione dei dati creati per il gruppo specifico di utenti.

I data mart possono essere creati nello stesso database del Datawarehouse o in un database fisicamente separato.

Best practice per l'architettura del data warehouse

Per progettare l'architettura del data warehouse, è necessario seguire le best practice indicate di seguito:

  • Utilizzare modelli di data warehouse ottimizzati per il recupero delle informazioni che può essere l'approccio in modalità dimensionale, denormalizzato o ibrido.
  • Scegli l'approccio di progettazione appropriato come approccio dall'alto verso il basso e dal basso verso l'alto in Data Warehouse
  • È necessario garantire che i dati vengano elaborati in modo rapido e accurato. Allo stesso tempo, dovresti adottare un approccio che consolida i dati in un'unica versione della verità.
  • Progettare attentamente l'acquisizione dei dati e il processo di pulizia per il data warehouse.
  • Progettare un'architettura MetaData che consenta la condivisione dei metadati tra i componenti di Data Warehouse
  • Considerare l'implementazione di un modello ODS quando la necessità di recupero delle informazioni è vicino al fondo della piramide di astrazione dei dati o quando è necessario accedere a più fonti operative.
  • È necessario assicurarsi che il modello di dati sia integrato e non solo consolidato. In tal caso, dovresti considerare il modello di dati 3NF. È anche ideale per acquisire ETL e strumenti di pulizia dei dati

Sommario:

  • Il data warehouse è un sistema informativo che contiene dati storici e commutativi da una o più fonti. Queste fonti possono essere Data Warehouse tradizionale, Cloud Data Warehouse o Virtual Data Warehouse.
  • Un data warehouse è orientato al soggetto in quanto offre informazioni sull'argomento anziché sulle operazioni in corso dell'organizzazione.
  • In Data Warehouse, per integrazione si intende la creazione di un'unità di misura comune per tutti i dati simili provenienti dai diversi database
  • Il data warehouse è anche non volatile, il che significa che i dati precedenti non vengono cancellati quando vengono inseriti nuovi dati.
  • Un Datawarehouse è una variante temporale poiché i dati in un DW hanno una durata di conservazione elevata.
  • Ci sono principalmente 5 componenti di Data Warehouse Architecture: 1) Database 2) ETL Tools 3) Meta Data 4) Query Tools 5) DataMarts
  • Queste sono quattro categorie principali di strumenti di query 1. Query e reporting, strumenti 2. Strumenti di sviluppo di applicazioni, 3. Strumenti di data mining 4. Strumenti OLAP
  • Gli strumenti di acquisizione, trasformazione e migrazione dei dati vengono utilizzati per eseguire tutte le conversioni e i riepiloghi.
  • Nell'architettura del data warehouse, i metadati svolgono un ruolo importante in quanto specificano l'origine, l'utilizzo, i valori e le caratteristiche dei dati del data warehouse.