Top 25 domande di colloquio sui test ETL e amp; Risposte

Anonim

Di seguito sono riportate le domande frequenti nelle interviste per matricole e tester e sviluppatori ETL esperti.

1) Cos'è ETL?

Nell'architettura del data warehousing, ETL è un componente importante, che gestisce i dati per qualsiasi processo aziendale. ETL sta per Extract, Transform and Load . Extract esegue il processo di lettura dei dati da un database. Transform esegue la conversione dei dati in un formato che potrebbe essere appropriato per il reporting e l'analisi. Mentre, il caricamento esegue il processo di scrittura dei dati nel database di destinazione.

2) Spiegare cosa sono incluse le operazioni di test ETL?

Il test ETL include

  • Verificare se i dati si stanno trasformando correttamente in base ai requisiti aziendali
  • Verificare che i dati proiettati vengano caricati nel data warehouse senza alcun troncamento e perdita di dati
  • Assicurati che l'applicazione ETL riporti dati non validi e li sostituisca con i valori predefiniti
  • Assicurati che i dati vengano caricati nel periodo di tempo previsto per migliorare la scalabilità e le prestazioni

3) Indicare quali sono i tipi di applicazioni di data warehouse e qual è la differenza tra data mining e data warehousing?

I tipi di applicazioni di data warehouse sono

  • Elaborazione delle informazioni
  • Elaborazione analitica
  • Estrazione dei dati

Il data mining può essere definito come il processo di estrazione di informazioni predittive nascoste da database di grandi dimensioni e di interpretazione dei dati, mentre il data warehousing può utilizzare una data mine per l'elaborazione analitica dei dati in modo più rapido. Il data warehousing è il processo di aggregazione dei dati da più origini in un archivio comune

4) Quali sono i vari strumenti utilizzati in ETL?

  • Cognos Decision Stream
  • Oracle Warehouse Builder
  • Business Objects XI
  • Magazzino aziendale SAS
  • Server ETL SAS Enterprise

5) Qual è il fatto? Quali sono i tipi di fatti?

È una componente centrale di un modello multidimensionale che contiene le misure da analizzare. I fatti sono legati alle dimensioni.

I tipi di fatti sono

  • Fatti additivi
  • Fatti semi-additivi
  • Fatti non additivi

6) Spiegare cosa sono i cubi e i cubi OLAP?

I cubi sono unità di elaborazione dati costituite da tabelle dei fatti e dimensioni dal data warehouse. Fornisce analisi multidimensionali.

OLAP è l'acronimo di Online Analytics Processing e il cubo OLAP memorizza dati di grandi dimensioni in forma multidimensionale per scopi di reporting. Consiste di fatti chiamati come misure classificate per dimensioni.

7) Spiegare cos'è il livello di tracciamento e quali sono i tipi?

Il livello di traccia è la quantità di dati archiviati nei file di registro. Il livello di tracciamento può essere classificato in due Normale e Verboso. Il livello normale spiega il livello di tracciamento in modo dettagliato mentre verboso spiega i livelli di traccia ad ogni riga.

8) Spiega cos'è il Grain of Fact?

Il fatto granulare può essere definito come il livello al quale vengono memorizzate le informazioni sui fatti. È anche noto come granularità dei fatti

9) Spiegare cos'è lo schema dei fatti senza fatti e cosa sono le misure?

Una tabella dei fatti senza misure è nota come tabella dei fatti senza fatti. Può visualizzare il numero di eventi che si verificano. Ad esempio, viene utilizzato per registrare un evento come il conteggio dei dipendenti in un'azienda.

I dati numerici basati sulle colonne in una tabella dei fatti sono noti come misure

10) Spiega cos'è la trasformazione?

Una trasformazione è un oggetto del repository che genera, modifica o trasmette dati. Le trasformazioni sono di due tipi Attive e Passive

11) Spiegare l'uso di Lookup Transformation?

La trasformazione della ricerca è utile per

  • Ottenere un valore correlato da una tabella utilizzando un valore di colonna
  • Aggiorna la tabella delle dimensioni che cambia lentamente
  • Verificare se i record esistono già nella tabella

12) Spiegare cosa sono il partizionamento, il partizionamento hash e il partizionamento round robin?

Per migliorare le prestazioni, le transazioni sono suddivise, questo è chiamato Partizionamento. Il partizionamento abilita Informatica Server per la creazione di più connessioni a varie origini

I tipi di partizioni sono

Partizionamento round-robin:

  • Da informatica i dati vengono distribuiti uniformemente tra tutte le partizioni
  • In ogni partizione in cui il numero di righe da elaborare è approssimativamente lo stesso, è applicabile questa suddivisione

Partizionamento hash:

  • Ai fini del partizionamento delle chiavi per raggruppare i dati tra le partizioni, il server Informatica applica una funzione hash
  • Viene utilizzato quando si assicura che i gruppi di processi di righe con la stessa chiave di partizionamento nella stessa partizione debbano essere garantiti

13) Indica qual è il vantaggio di utilizzare DataReader Destination Adapter?

Il vantaggio dell'utilizzo dell'adattatore di destinazione DataReader è che popola un recordset ADO (costituito da record e colonne) in memoria ed espone i dati dall'attività DataFlow implementando l'interfaccia DataReader, in modo che un'altra applicazione possa consumare i dati.

14) Utilizzando SSIS (SQL Server Integration Service) quali sono i modi possibili per aggiornare la tabella?

Per aggiornare la tabella utilizzando SSIS i modi possibili sono:

  • Usa un comando SQL
  • Usa una tabella di staging
  • Usa cache
  • Usa l'attività Script
  • Utilizzare il nome completo del database per l'aggiornamento se viene utilizzato MSSQL

15) Nel caso in cui tu abbia una fonte non OLEDB (Object Linking and Embedding Database) per la ricerca, cosa faresti?

Nel caso in cui tu abbia una fonte non OLEBD per la ricerca, devi usare la cache per caricare i dati e usarla come fonte

16) In che caso usi la cache dinamica e la cache statica nelle trasformazioni connesse e non connesse?

  • La cache dinamica viene utilizzata quando è necessario aggiornare la tabella principale e le dimensioni a modifica lenta (SCD) di tipo 1
  • Per i file flat viene utilizzata la cache statica

17) Spiegare quali sono le differenze tra la ricerca Unconnected e Connected?

Ricerca connessa

Ricerca non connessa

  • La ricerca connessa partecipa alla mappatura

- Viene utilizzato quando viene utilizzata la funzione di ricerca invece della trasformazione di un'espressione durante la mappatura

  • Possono essere restituiti più valori

- Restituisce solo una porta di uscita

  • Può essere collegato ad altre trasformazioni e restituisce un valore
  • Non è possibile collegare un'altra trasformazione
  • La cache statica o dinamica può essere utilizzata per la ricerca connessa
  • Non connesso come unica cache statica
  • La ricerca connessa supporta i valori predefiniti definiti dall'utente
  • La ricerca non connessa non supporta i valori predefiniti definiti dall'utente
  • In Connected Lookup è possibile restituire più colonne dalla stessa riga o inserirle nella cache di ricerca dinamica
  • La ricerca non connessa designa una porta di ritorno e restituisce una colonna da ogni riga

18) Spiegare cos'è la visualizzazione dell'origine dati?

Una vista dell'origine dati consente di definire lo schema relazionale che verrà utilizzato nei database dei servizi di analisi. Piuttosto che direttamente dagli oggetti dell'origine dati, le dimensioni e i cubi vengono creati dalle viste dell'origine dati.

19) Spiegare qual è la differenza tra gli strumenti OLAP e gli strumenti ETL?

La differenza tra lo strumento ETL e OLAP è questa

Lo strumento ETL è pensato per l'estrazione di dati dai sistemi legacy e il caricamento in un database specifico con un processo di pulizia dei dati.

Esempio: Data stage, Informatica ecc.

Mentre OLAP è pensato per scopi di reporting nei dati OLAP disponibili nel modello multidirezionale.

Esempio: Business Objects, Cognos ecc.

20) Come estrarre i dati SAP utilizzando Informatica?

  • Con l'opzione power connect si estraggono i dati SAP utilizzando informatica
  • Installa e configura lo strumento PowerConnect
  • Importa la sorgente in Source Analyzer. Tra Informatica e SAP Powerconnect fungono da gateaway. Il passo successivo è generare il codice ABAP per la mappatura, quindi solo informatica può estrarre dati da SAP
  • Per connettere e importare sorgenti da sistemi esterni viene utilizzato Power Connect

21) Indica qual è la differenza tra Power Mart e Power Center?

Power Center

Power Mart

  • Supponiamo di elaborare un enorme volume di dati
  • Supponiamo di elaborare un volume ridotto di dati
  • Supporta fonti ERP come SAP, people soft ecc.
  • Non supporta sorgenti ERP
  • Supporta repository locali e globali
  • Supporta il repository locale
  • Converte il repository locale in globale
  • Non ha specifiche per convertire il repository locale in globale

22) Spiegare cos'è l'area di sosta e qual è lo scopo di un'area di sosta?

Lo staging dei dati è un'area in cui si conservano i dati temporaneamente sul server del data warehouse. La gestione temporanea dei dati include i seguenti passaggi

  • Estrazione dei dati di origine e trasformazione dei dati (ristrutturazione)
  • Trasformazione dei dati (pulizia dei dati, trasformazione del valore)
  • Assegnazioni chiave surrogate

23) Cos'è lo schema del bus?

Per i vari processi aziendali per identificare le dimensioni comuni, viene utilizzato lo schema BUS. Viene fornito con dimensioni conformi insieme a una definizione standardizzata delle informazioni

24) Spiegare cos'è l'eliminazione dei dati?

L'eliminazione dei dati è un processo di eliminazione dei dati dal data warehouse. Elimina le righe simili ai dati spazzatura con valori nulli o spazi extra.

25) Spiegare cosa sono gli oggetti dello schema?

Gli oggetti dello schema sono la struttura logica che fa riferimento direttamente ai dati del database. Gli oggetti dello schema includono tabelle, viste, sinonimi di sequenza, indici, cluster, pacchetti di funzioni e collegamenti a database

26) Spiegare questi termini Sessione, Worklet, Mapplet e Workflow?

  • Mapplet: organizza o crea insiemi di trasformazione
  • Worklet: rappresenta un insieme specifico di attività fornite
  • Flusso di lavoro: è un insieme di istruzioni che indicano al server come eseguire le attività
  • Sessione: è un insieme di parametri che indica al server come spostare i dati dalle origini alla destinazione

Download gratuito del PDF: Domande e risposte al colloquio di prova ETL