Cos'è Data Lake?
Un Data Lake è un repository di archiviazione in grado di archiviare grandi quantità di dati strutturati, semi-strutturati e non strutturati. È un luogo in cui archiviare ogni tipo di dati nel suo formato nativo senza limiti fissi sulla dimensione dell'account o sul file. Offre un'elevata quantità di dati per aumentare le prestazioni analitiche e l'integrazione nativa.
Il Data Lake è come un grande contenitore molto simile al lago e ai fiumi reali. Proprio come in un lago ci sono più affluenti in arrivo, un data lake ha dati strutturati, dati non strutturati, da macchina a macchina, registri che fluiscono in tempo reale.
Il Data Lake democratizza i dati ed è un modo conveniente per archiviare tutti i dati di un'organizzazione per un'elaborazione successiva. Analista di ricerca può concentrarsi sulla ricerca di schemi di significato nei dati e non sui dati stessi.
A differenza di una casa Dataware gerarchica in cui i dati sono archiviati in File e cartelle, Data lake ha un'architettura piatta. A ogni elemento di dati in un data lake viene assegnato un identificatore univoco e contrassegnato con una serie di informazioni sui metadati.
In questo tutorial imparerai-
- Cos'è Data Lake?
- Perché Data Lake?
- Architettura di Data Lake
- Concetti chiave di Data Lake
- Fasi di maturità del Data Lake
- Best practice per l'implementazione di Data Lake:
- Differenza tra data lake e data warehouse
- Vantaggi e rischi dell'utilizzo di Data Lake:
Perché Data Lake?
L'obiettivo principale della costruzione di un data lake è offrire una visione non raffinata dei dati ai data scientist.
I motivi per utilizzare Data Lake sono:
- Con l'avvento dei motori di archiviazione come Hadoop, l'archiviazione di informazioni disparate è diventata facile. Non è necessario modellare i dati in uno schema a livello aziendale con un Data Lake.
- Con l'aumento del volume dei dati, della qualità dei dati e dei metadati, aumenta anche la qualità delle analisi.
- Data Lake offre Agility aziendale
- L'apprendimento automatico e l'intelligenza artificiale possono essere utilizzati per fare previsioni redditizie.
- Offre un vantaggio competitivo all'organizzazione esecutiva.
- Non esiste una struttura del silo di dati. Data Lake offre una visione a 360 gradi dei clienti e rende l'analisi più solida.
Architettura di Data Lake
La figura mostra l'architettura di un Business Data Lake. I livelli inferiori rappresentano i dati per lo più a riposo, mentre i livelli superiori mostrano i dati transazionali in tempo reale. Questi dati fluiscono attraverso il sistema senza o con poca latenza. Di seguito sono riportati i livelli importanti in Data Lake Architecture:
- Livello di importazione : i livelli sul lato sinistro rappresentano le origini dati. I dati possono essere caricati nel data lake in batch o in tempo reale
- Livello di approfondimenti: i livelli a destra rappresentano il lato della ricerca in cui vengono utilizzati gli approfondimenti dal sistema. Per l'analisi dei dati è possibile utilizzare query SQL, NoSQL o anche Excel.
- HDFS è una soluzione conveniente per dati strutturati e non strutturati. È una zona di atterraggio per tutti i dati a riposo nel sistema.
- Il livello di distillazione prende i dati dal pneumatico di stoccaggio e li converte in dati strutturati per un'analisi più semplice.
- Il livello di elaborazione esegue algoritmi analitici e query degli utenti con batch interattivi, in tempo reale variabili per generare dati strutturati per un'analisi più semplice.
- Il livello delle operazioni unificate regola la gestione e il monitoraggio del sistema. Include audit e gestione delle competenze, gestione dei dati, gestione del flusso di lavoro.
Concetti chiave di Data Lake
Di seguito sono riportati i concetti chiave di Data Lake che è necessario comprendere per comprendere completamente l'architettura di Data Lake
Ingestione dei dati
L'inserimento dei dati consente ai connettori di ottenere dati da origini dati diverse e di caricarli nel Data lake.
L'ingestione dei dati supporta:
- Tutti i tipi di dati strutturati, semi-strutturati e non strutturati.
- Importazioni multiple come Batch, Real-Time, One-time load.
- Molti tipi di origini dati come database, server Web, e-mail, IoT e FTP.
Archivio dati
L'archiviazione dei dati dovrebbe essere scalabile, offrire un'archiviazione conveniente e consentire un rapido accesso all'esplorazione dei dati. Dovrebbe supportare vari formati di dati.
Governance dei dati
La governance dei dati è un processo di gestione della disponibilità, dell'usabilità, della sicurezza e dell'integrità dei dati utilizzati in un'organizzazione.
Sicurezza
La sicurezza deve essere implementata in ogni livello del Data lake. Inizia con archiviazione, scoperta e consumo. La necessità fondamentale è bloccare l'accesso agli utenti non autorizzati. Dovrebbe supportare diversi strumenti per accedere ai dati con GUI e dashboard facili da navigare.
Autenticazione, contabilità, autorizzazione e protezione dei dati sono alcune caratteristiche importanti della sicurezza del data lake.
Qualità dei dati:
La qualità dei dati è una componente essenziale dell'architettura di Data Lake. I dati vengono utilizzati per determinare il valore aziendale. L'estrazione di informazioni da dati di scarsa qualità porterà a informazioni di scarsa qualità.
Scoperta dei dati
Il rilevamento dei dati è un'altra fase importante prima di poter iniziare a preparare i dati o l'analisi. In questa fase, la tecnica di tagging viene utilizzata per esprimere la comprensione dei dati, organizzando e interpretando i dati ingeriti nel Data lake.
Controllo dei dati
Due attività principali di controllo dei dati sono il rilevamento delle modifiche al set di dati chiave.
- Rilevamento delle modifiche a importanti elementi del set di dati
- Cattura come / quando / e chi cambia a questi elementi.
Il controllo dei dati aiuta a valutare il rischio e la conformità.
Data Lignaggio
Questo componente si occupa delle origini dei dati. Si occupa principalmente di dove si muove nel tempo e di cosa gli accade. Facilita la correzione degli errori in un processo di analisi dei dati dall'origine alla destinazione.
Esplorazione dei dati
È la fase iniziale dell'analisi dei dati. Aiuta a identificare il set di dati corretto è fondamentale prima di iniziare l'esplorazione dei dati.
Tutti i componenti devono lavorare insieme per svolgere un ruolo importante nella costruzione di Data Lake facilmente evolversi ed esplorare l'ambiente.
Fasi di maturità del Data Lake
La definizione delle fasi di maturità del Data Lake differisce da un libro di testo all'altro. Anche se il punto cruciale rimane lo stesso. Dopo la maturità, la definizione dello stadio è da un punto di vista laico.
Fase 1: gestire e importare i dati su larga scala
Questa prima fase della maturità dei dati implica il miglioramento della capacità di trasformare e analizzare i dati. Qui, gli imprenditori devono trovare gli strumenti in base alle loro competenze per ottenere più dati e creare applicazioni analitiche.
Fase 2: costruzione del muscolo analitico
Questa è una seconda fase che implica il miglioramento della capacità di trasformare e analizzare i dati. In questa fase, le aziende utilizzano lo strumento più appropriato per le loro competenze. Iniziano ad acquisire più dati e a creare applicazioni. Qui, le funzionalità del data warehouse aziendale e del data lake vengono utilizzate insieme.
Fase 3: EDW e Data Lake lavorano all'unisono
Questo passaggio prevede la trasmissione di dati e analisi nelle mani di quante più persone possibile. In questa fase, il data lake e il data warehouse aziendale iniziano a lavorare in unione. Entrambi giocano la loro parte nell'analisi
Fase 4: capacità aziendale nel lago
In questa fase di maturità del data lake, le funzionalità aziendali vengono aggiunte al data lake. Adozione della governance delle informazioni, funzionalità di gestione del ciclo di vita delle informazioni e gestione dei metadati. Tuttavia, pochissime organizzazioni possono raggiungere questo livello di maturità, ma questo conteggio aumenterà in futuro.
Best practice per l'implementazione di Data Lake:
- I componenti architettonici, la loro interazione e i prodotti identificati dovrebbero supportare i tipi di dati nativi
- La progettazione di Data Lake dovrebbe essere guidata da ciò che è disponibile anziché da ciò che è richiesto. Lo schema e il requisito dei dati non vengono definiti finché non viene eseguita una query
- La progettazione dovrebbe essere guidata da componenti usa e getta integrati con l'API di servizio.
- Rilevamento, importazione, archiviazione, amministrazione, qualità, trasformazione e visualizzazione dei dati devono essere gestiti in modo indipendente.
- L'architettura Data Lake dovrebbe essere adattata a un settore specifico. Dovrebbe garantire che le capacità necessarie per quel dominio siano una parte intrinseca del progetto
- È importante una registrazione più rapida delle fonti di dati scoperte di recente
- Data Lake aiuta la gestione personalizzata per estrarre il massimo valore
- Il Data Lake dovrebbe supportare le tecniche e i metodi di gestione dei dati aziendali esistenti
Sfide nella creazione di un data lake:
- In Data Lake, il volume dei dati è maggiore, quindi il processo deve essere più dipendente dall'amministrazione programmatica
- È difficile gestire dati sparsi, incompleti e volatili
- Un ambito più ampio del set di dati e dell'origine richiede una governance e un supporto dei dati più ampi
Differenza tra data lake e data warehouse
Parametri | Data Lakes | Data Warehouse |
---|---|---|
Dati | I data lake archiviano tutto. | Data Warehouse si concentra solo sui processi aziendali. |
in lavorazione | I dati sono principalmente non elaborati | Dati altamente elaborati. |
Tipo di dati | Può essere non strutturato, semistrutturato e strutturato. | È principalmente in forma e struttura tabulari. |
Compito | Condividi la gestione dei dati | Ottimizzato per il recupero dei dati |
Agilità | Altamente agile, configura e riconfigura secondo necessità. | Rispetto al Data Lake è meno agile e ha una configurazione fissa. |
Utenti | Data Lake è utilizzato principalmente da Data Scientist | I professionisti aziendali utilizzano ampiamente Data Warehouse |
Conservazione | Progettazione di data lake per archiviazione a basso costo. | Viene utilizzato uno spazio di archiviazione costoso che offre tempi di risposta rapidi |
Sicurezza | Offre un controllo minore. | Consente un migliore controllo dei dati. |
Sostituzione di EDW | Il data lake può essere fonte per EDW | Complementare a EDW (non sostitutivo) |
Schema | Schema in lettura (nessuno schema predefinito) | Schema in scrittura (schemi predefiniti) |
Elaborazione dati | Aiuta per l'acquisizione rapida di nuovi dati. | Richiede tempo per introdurre nuovi contenuti. |
Granularità dei dati | Dati a basso livello di dettaglio o granularità. | Dati a livello di dettaglio riepilogativo o aggregato. |
Utensili | Può usare open source / strumenti come Hadoop / Map Reduce | Principalmente strumenti commerciali. |
Vantaggi e rischi dell'utilizzo di Data Lake:
Di seguito sono riportati alcuni dei principali vantaggi nell'utilizzo di un Data Lake:
- Aiuta completamente con la ionizzazione del prodotto e l'analisi avanzata
- Offre scalabilità e flessibilità convenienti
- Offre valore da un numero illimitato di tipi di dati
- Riduce il costo di proprietà a lungo termine
- Consente l'archiviazione economica dei file
- Adattabile rapidamente ai cambiamenti
- Il vantaggio principale del data lake è la centralizzazione di diverse fonti di contenuto
- Gli utenti, provenienti da vari reparti, possono essere sparsi in tutto il mondo possono avere un accesso flessibile ai dati
Rischio di utilizzo di Data Lake:
- Dopo un po 'di tempo, Data Lake potrebbe perdere rilevanza e slancio
- Il rischio è maggiore durante la progettazione di Data Lake
- I dati non strutturati possono portare a caos non governato, dati inutilizzabili, strumenti disparati e complessi, collaborazione a livello aziendale, unificato, coerente e comune
- Aumenta anche i costi di archiviazione e calcolo
- Non c'è modo di ottenere approfondimenti da altri che hanno lavorato con i dati perché non vi è alcun conto del lignaggio dei risultati dei precedenti analisti
- Il rischio maggiore dei data lake è la sicurezza e il controllo degli accessi. A volte i dati possono essere inseriti in un lago senza alcuna supervisione, poiché alcuni dati potrebbero avere esigenze normative e di privacy
Sommario:
- Un Data Lake è un repository di archiviazione in grado di archiviare grandi quantità di dati strutturati, semi-strutturati e non strutturati.
- L'obiettivo principale della costruzione di un data lake è offrire una visione non raffinata dei dati ai data scientist.
- Il livello delle operazioni unificate, il livello di elaborazione, il livello di distillazione e HDFS sono livelli importanti di Data Lake Architecture
- Data Ingestion, Data storage, Data quality, Data Auditing, Data exploration, Data discover sono alcuni componenti importanti di Data Lake Architecture
- La progettazione di Data Lake dovrebbe essere guidata da ciò che è disponibile anziché da ciò che è richiesto.
- Data Lake riduce il costo di proprietà a lungo termine e consente l'archiviazione economica dei file
- Il rischio maggiore dei data lake è la sicurezza e il controllo degli accessi. A volte i dati possono essere inseriti in un lago senza alcuna supervisione, poiché alcuni dati potrebbero avere esigenze normative e di privacy.