Qui ci sono domande frequenti per i colloqui di ingegnere dei dati per matricole e candidati esperti per ottenere il lavoro giusto.
1) Spiegare l'ingegneria dei dati.
L'ingegneria dei dati è un termine utilizzato nei big data. Si concentra sull'applicazione della raccolta dati e della ricerca. I dati generati da varie fonti sono solo dati grezzi. L'ingegneria dei dati aiuta a convertire questi dati grezzi in informazioni utili.
2) Cos'è la modellazione dei dati?
La modellazione dei dati è il metodo per documentare la progettazione di software complessi come un diagramma in modo che chiunque possa facilmente comprenderlo. È una rappresentazione concettuale degli oggetti dati associati tra i vari oggetti dati e le regole.
3) Elenca vari tipi di schemi di progettazione in Data Modeling
Esistono principalmente due tipi di schemi nella modellazione dei dati: 1) Schema Star e 2) Schema Snowflake.
4) Distinguere tra dati strutturati e non strutturati
Di seguito è riportata una differenza tra dati strutturati e non strutturati:
Parametro | Dati strutturati | Dati non strutturati |
Conservazione | DBMS | Strutture di file non gestite |
Standard | ADO.net, ODBC e SQL | STMP, XML, CSV e SMS |
Strumento di integrazione | ELT (Estrai, Trasforma, Carica) | Inserimento manuale dei dati o elaborazione in batch che include i codici |
ridimensionamento | Il ridimensionamento dello schema è difficile | Il ridimensionamento è molto semplice. |
5) Spiega tutti i componenti di un'applicazione Hadoop
Di seguito sono riportati i componenti dell'applicazione Hadoop:
- Hadoop Common: è un insieme comune di utilità e librerie utilizzate da Hadoop.
- HDFS: questa applicazione Hadoop si riferisce al file system in cui sono archiviati i dati Hadoop. È un file system distribuito con un'elevata larghezza di banda.
- Hadoop MapReduce: si basa secondo l'algoritmo per la fornitura di elaborazione dati su larga scala.
- Hadoop YARN: viene utilizzato per la gestione delle risorse all'interno del cluster Hadoop. Può anche essere utilizzato per la pianificazione delle attività per gli utenti.
6) Cos'è NameNode?
È il fulcro di HDFS. Memorizza i dati di HDFS e tiene traccia di vari file nei cluster. Qui, i dati effettivi non vengono memorizzati. I dati vengono archiviati in DataNodes.
7) Definisci lo streaming Hadoop
È un'utilità che consente la creazione della mappa e riduce i lavori e li invia a un cluster specifico.
8) Qual è la forma completa di HDFS?
HDFS è l'acronimo di Hadoop Distributed File System.
9) Definisci Block e Block Scanner in HDFS
I blocchi sono l'unità più piccola di un file di dati. Hadoop divide automaticamente file di grandi dimensioni in piccoli pezzi.
Block Scanner verifica l'elenco dei blocchi presentati su un DataNode.
10) Quali sono i passaggi che si verificano quando Block Scanner rileva un blocco di dati danneggiato?
Di seguito sono riportati i passaggi che si verificano quando Block Scanner trova un blocco di dati danneggiato:
1) Prima di tutto, quando Block Scanner trova un blocco di dati danneggiato, DataNode segnala a NameNode
2) NameNode avvia il processo di creazione di una nuova replica utilizzando una replica del blocco danneggiato.
3) Il conteggio delle repliche delle repliche corrette cerca di corrispondere al fattore di replica. Se la corrispondenza trovata, il blocco dati danneggiato non verrà cancellato.
11) Nomina due messaggi che NameNode riceve da DataNode?
Ci sono due messaggi che NameNode riceve da DataNode. Sono 1) Rapporto di blocco e 2) Battito cardiaco.
12) Elencare vari file di configurazione XML in Hadoop?
Ci sono cinque file di configurazione XML in Hadoop:
- Mapred-site
- Sito principale
- Sito HDFS
- Sito del filato
13) Quali sono le quattro V dei big data?
Le quattro V dei big data sono:
- Velocità
- Varietà
- Volume
- Veridicità
14) Spiega le caratteristiche di Hadoop
Le caratteristiche importanti di Hadoop sono:
- È un framework open source disponibile gratuitamente.
- Hadoop è compatibile con molti tipi di hardware e un nuovo hardware di facile accesso all'interno di un nodo specifico.
- Hadoop supporta un'elaborazione dei dati distribuita più velocemente.
- Memorizza i dati nel cluster, che è indipendente dal resto delle operazioni.
- Hadoop consente di creare 3 repliche per ogni blocco con diversi nodi.
15) Spiegare i metodi principali di Reducer
- setup (): viene utilizzato per configurare parametri come la dimensione dei dati di input e la cache distribuita.
- cleanup (): questo metodo viene utilizzato per pulire i file temporanei.
- reduce (): è un cuore del riduttore che viene chiamato una volta per tasto con l'attività ridotta associata
16) Qual è l'abbreviazione di COSHH?
L'abbreviazione di COSHH è Pianificazione basata su classificazione e ottimizzazione per sistemi Hadoop eterogenei.
17) Spiega lo schema a stella
Star Schema o Star Join Schema è il tipo più semplice di schema Data Warehouse. È noto come schema a stella perché la sua struttura è come una stella. Nello schema Star, il centro della stella può avere una tabella dei fatti e più tabelle delle dimensioni associate. Questo schema viene utilizzato per eseguire query su set di dati di grandi dimensioni.
18) Come implementare una soluzione per big data?
Segui i passaggi seguenti per distribuire una soluzione per big data.
1) Integrare i dati utilizzando origini dati come RDBMS, SAP, MySQL, Salesforce
2) Archivia i dati estratti in un database NoSQL o in HDFS.
3) Distribuisci una soluzione per big data utilizzando framework di elaborazione come Pig, Spark e MapReduce.
19) Spiega l'FSCK
File System Check o FSCK è il comando utilizzato da HDFS. Il comando FSCK viene utilizzato per verificare incongruenze e problemi nel file.
20) Spiegare lo schema del fiocco di neve
Uno schema a fiocco di neve è un'estensione di uno schema a stella e aggiunge dimensioni aggiuntive. È cosiddetto fiocco di neve perché il suo diagramma sembra un fiocco di neve. Le tabelle delle dimensioni sono normalizzate, il che divide i dati in tabelle aggiuntive.
21) Distinguere tra Star e Snowflake Schema
Stella | Schema SnowFlake |
Le gerarchie di dimensioni vengono memorizzate nella tabella dimensionale. | Ogni gerarchia è archiviata in tabelle separate. |
Le possibilità di ridondanza dei dati sono elevate | Le possibilità di ridondanza dei dati sono basse. |
Ha un design DB molto semplice | Ha un design DB complesso |
Fornire un modo più veloce per l'elaborazione del cubo | L'elaborazione del cubo è lenta a causa del join complesso. |
22) Spiegare il file system distribuito di Hadoop
Hadoop funziona con file system distribuiti scalabili come S3, HFTP FS, FS e HDFS. Il file system distribuito Hadoop viene creato sul file system di Google. Questo file system è progettato in modo da poter essere eseguito facilmente su un grande cluster del sistema informatico.
23) Spiegare le principali responsabilità di un ingegnere dei dati
I data engineer hanno molte responsabilità. Gestiscono il sistema di origine dei dati. I data engineer semplificano la complessa struttura dei dati e prevengono la riduplicazione dei dati. Molte volte forniscono anche ELT e trasformazione dei dati.
24) Qual è la forma completa di YARN?
La forma completa di YARN è Yet Another Resource Negotiator.
25) Elenca varie modalità in Hadoop
Le modalità in Hadoop sono 1) Modalità standalone 2) Modalità pseudo distribuita 3) Modalità completamente distribuita.
26) Come ottenere la sicurezza in Hadoop?
Eseguire i passaggi seguenti per ottenere la sicurezza in Hadoop:
1) Il primo passo è proteggere il canale di autenticazione del client sul server. Fornire timestamp al client.
2) Nella seconda fase, il client utilizza il timestamp ricevuto per richiedere TGS per un ticket di servizio.
3) Nell'ultimo passaggio, il client utilizza il ticket di servizio per l'autenticazione su un server specifico.
27) Cos'è il battito cardiaco in Hadoop?
In Hadoop, NameNode e DataNode comunicano tra loro. Heartbeat è il segnale inviato regolarmente da DataNode a NameNode per mostrare la sua presenza.
28) Distinguere tra NAS e DAS in Hadoop
NAS | DAS |
La capacità di archiviazione è da 10 9 a 10 12 in byte. | La capacità di archiviazione è di 10 9 in byte. |
Il costo di gestione per GB è moderato. | Il costo di gestione per GB è elevato. |
Trasmettere i dati tramite Ethernet o TCP / IP. | Trasmettere i dati utilizzando IDE / SCSI |
29) Elenca i campi o le lingue importanti utilizzati dal tecnico dei dati
Di seguito sono riportati alcuni campi o linguaggi utilizzati dall'ingegnere dei dati:
- Probabilità e algebra lineare
- Apprendimento automatico
- Analisi delle tendenze e regressione
- Database Hive QL e SQL
30) Cosa sono i Big Data?
Si tratta di una grande quantità di dati strutturati e non strutturati, che non possono essere facilmente elaborati con i metodi di archiviazione dei dati tradizionali. I data engineer utilizzano Hadoop per gestire i big data.
31) Cos'è la programmazione FIFO?
È un algoritmo di pianificazione del lavoro Hadoop. In questa pianificazione FIFO, un reporter seleziona i lavori da una coda di lavoro, il lavoro più vecchio per primo.
32) Indica i numeri di porta predefiniti su cui vengono eseguiti task tracker, NameNode e job tracker in Hadoop
I numeri di porta predefiniti su cui tracker attività, NameNode e job tracker vengono eseguiti in Hadoop sono i seguenti:
- Il tracker delle attività funziona sulla porta 50060
- NameNode viene eseguito sulla porta 50070
- Job Tracker viene eseguito sulla porta 50030
33) Come disabilitare Block Scanner su HDFS Data Node
Per disabilitare il Block Scanner su HDFS Data Node, impostare dfs.datanode.scan.period.hours su 0.
34) Come definire la distanza tra due nodi in Hadoop?
La distanza è uguale alla somma della distanza dai nodi più vicini. Il metodo getDistance () viene utilizzato per calcolare la distanza tra due nodi.
35) Perché utilizzare hardware di base in Hadoop?
L'hardware di base è facile da ottenere e conveniente. È un sistema compatibile con Windows, MS-DOS o Linux.
36) Definire il fattore di replica in HDFS
Il fattore di replica è il numero totale di repliche di un file nel sistema.
37) Quali dati vengono memorizzati in NameNode?
Namenode memorizza i metadati per HDFS come le informazioni sui blocchi e le informazioni sullo spazio dei nomi.
38) Cosa intendi per Rack Awareness?
Nel cluster Haddop, Namenode utilizza il codice dati per migliorare il traffico di rete durante la lettura o la scrittura di qualsiasi file più vicino al rack vicino per la richiesta di lettura o scrittura. Namenode mantiene l'ID rack di ogni DataNode per ottenere le informazioni sul rack. Questo concetto è chiamato Rack Awareness in Hadoop.
39) Quali sono le funzioni di Secondary NameNode?
Di seguito sono riportate le funzioni di Secondary NameNode:
- FsImage che memorizza una copia del file EditLog e FsImage.
- Arresto anomalo di NameNode: se il NameNode si arresta in modo anomalo, è possibile utilizzare FsImage di Secondary NameNode per ricreare il NameNode.
- Punto di controllo: viene utilizzato da Secondary NameNode per confermare che i dati non sono danneggiati in HDFS.
- Aggiorna: aggiorna automaticamente il file EditLog e FsImage. Aiuta a mantenere aggiornato il file FsImage su Secondary NameNode.
40) Cosa succede quando NameNode è inattivo e l'utente invia un nuovo lavoro?
NameNode è il singolo punto di errore in Hadoop, quindi l'utente non può inviare un nuovo lavoro che non può essere eseguito. Se NameNode è inattivo, il lavoro potrebbe non riuscire, poiché l'utente deve attendere il riavvio di NameNode prima di eseguire qualsiasi lavoro.
41) Quali sono le fasi fondamentali del riduttore in Hadoop?
Ci sono tre fasi fondamentali di un riduttore in Hadoop:
1. Shuffle: qui, Reducer copia l'output dal Mapper.
2. Ordina: nell'ordinamento, Hadoop ordina l'input in Reducer utilizzando la stessa chiave.
3. Riduci: in questa fase, i valori di output associati a una chiave vengono ridotti per consolidare i dati nell'output finale.
42) Perché Hadoop utilizza l'oggetto Context?
Il framework Hadoop utilizza l'oggetto Context con la classe Mapper per interagire con il sistema rimanente. L'oggetto Context ottiene i dettagli di configurazione del sistema e il lavoro nel suo costruttore.
Usiamo l'oggetto Context per passare le informazioni nei metodi setup (), cleanup () e map (). Questo oggetto rende disponibili informazioni vitali durante le operazioni sulla mappa.
43) Definisci Combiner in Hadoop
È un passaggio facoltativo tra Mappa e Riduci. Combiner prende l'output dalla funzione Map, crea coppie di valori chiave e lo invia a Hadoop Reducer. Il compito di Combiner è riassumere il risultato finale di Map in record di riepilogo con una chiave identica.
44) Qual è il fattore di replica predefinito disponibile in HDFS Cosa indica?
Il fattore di replica predefinito disponibile in HDFS è tre. Il fattore di replica predefinito indica che ci saranno tre repliche di ogni dato.
45) Cosa intendi per località dati in Hadoop?
In un sistema Big Data, la dimensione dei dati è enorme ed è per questo che non ha senso spostare i dati attraverso la rete. Ora, Hadoop cerca di spostare il calcolo più vicino ai dati. In questo modo, i dati rimangono locali nella posizione archiviata.
46) Definisci bilanciatore in HDFS
In HDFS, il bilanciatore è un servizio amministrativo utilizzato dal personale amministrativo per ribilanciare i dati tra i DataNode e sposta i blocchi dai nodi sovrautilizzati a quelli sottoutilizzati.
47) Spiegare la modalità provvisoria in HDFS
È una modalità di sola lettura di NameNode in un cluster. Inizialmente, NameNode è in modalità sicura. Impedisce la scrittura nel file system in modalità sicura. In questo momento, raccoglie dati e statistiche da tutti i DataNode.
48) Qual è l'importanza della cache distribuita in Apache Hadoop?
Hadoop dispone di un'utile funzione di utilità, la cosiddetta cache distribuita, che migliora le prestazioni dei lavori memorizzando nella cache i file utilizzati dalle applicazioni. Un'applicazione può specificare un file per la cache utilizzando la configurazione JobConf.
Il framework Hadoop fa la replica di questi file sui nodi in cui deve essere eseguita un'attività. Questo viene fatto prima che inizi l'esecuzione dell'attività. La cache distribuita supporta la distribuzione di file di sola lettura, zip e file jar.
49) Cos'è Metastore in Hive?
Memorizza lo schema e la posizione della tabella Hive.
La tabella Hive definisce, mapping e metadati archiviati in Metastore. Questo può essere memorizzato in RDBMS supportato da JPOX.
50) Cosa si intende per SerDe in Hive?
SerDe è un nome breve per Serializer o Deserializer. In Hive, SerDe consente di leggere i dati dalla tabella e di scrivere in un campo specifico in qualsiasi formato si desideri.
51) Elenca i componenti disponibili nel modello dati Hive
Esistono i seguenti componenti nel modello di dati Hive:
- Tabelle
- Partizioni
- Secchi
52) Spiegare l'uso di Hive nell'ecosistema Hadoop.
Hive fornisce un'interfaccia per gestire i dati archiviati nell'ecosistema Hadoop. Hive viene utilizzato per mappare e lavorare con le tabelle HBase. Le query Hive vengono convertite in lavori MapReduce per nascondere la complessità associata alla creazione e all'esecuzione dei lavori MapReduce.
53) Elenca vari tipi / raccolte di dati complessi supportati da Hive
Hive supporta i seguenti tipi di dati complessi:
- Carta geografica
- Struct
- Vettore
- Unione
54) Spiega come viene utilizzato il file .hiverc in Hive?
In Hive, .hiverc è il file di inizializzazione. Questo file viene inizialmente caricato all'avvio dell'interfaccia della riga di comando (CLI) per Hive. Possiamo impostare i valori iniziali dei parametri nel file .hiverc.
55) È possibile creare più di una tabella in Hive per un singolo file di dati?
Sì, possiamo creare più di uno schema di tabella per un file di dati. Hive salva lo schema in Hive Metastore. In base a questo schema, possiamo recuperare risultati dissimili dagli stessi dati.
56) Spiegare le diverse implementazioni di SerDe disponibili in Hive
Sono disponibili molte implementazioni di SerDe in Hive. Puoi anche scrivere la tua implementazione SerDe personalizzata. Di seguito sono riportate alcune famose implementazioni di SerDe:
- OpenCSVSerde
- RegexSerDe
- DelimitedJSONSerDe
- ByteStreamTypedSerDe
57) Elenca le funzioni di generazione di tabelle disponibili in Hive
Di seguito è riportato un elenco di funzioni di generazione di tabelle:
- Esplodi (array)
- JSON_tuple ()
- Pila()
- Esplodi (mappa)
58) Cos'è una tabella Skewed in Hive?
Una tabella inclinata è una tabella che contiene i valori delle colonne più spesso. In Hive, quando specifichiamo una tabella come SKEWED durante la creazione, i valori inclinati vengono scritti in file separati ei valori rimanenti vanno in un altro file.
59) Elenca gli oggetti creati dall'istruzione create in MySQL.
Gli oggetti creati dall'istruzione create in MySQL sono i seguenti:
- Banca dati
- Indice
- tavolo
- Utente
- Procedura
- Trigger
- Evento
- Visualizza
- Funzione
60) Come vedere la struttura del database in MySQL?
Per vedere la struttura del database in MySQL, puoi usare
DESCRIVERE il comando. La sintassi di questo comando è DESCRIBE Table name ;.
61) Come cercare una stringa specifica nella colonna della tabella MySQL?
Usa l'operatore regex per cercare una stringa nella colonna MySQL. Qui, possiamo anche definire vari tipi di espressioni regolari e cercare utilizzando regex.
62) Spiegare come l'analisi dei dati e i big data possono aumentare i ricavi dell'azienda?
Di seguito sono riportati i modi in cui l'analisi dei dati e i big data possono aumentare i ricavi dell'azienda:
- Usa i dati in modo efficiente per assicurarti che la crescita del business.
- Aumenta il valore del cliente.
- Trasformazione analitica per migliorare le previsioni sui livelli di personale.
- Abbattere i costi di produzione delle organizzazioni.