Di seguito sono riportate le domande frequenti nei colloqui di lavoro per matricole e Data Scientist esperti.
1. Che cos'è la scienza dei dati?
La scienza dei dati è una combinazione di algoritmi, strumenti e tecniche di apprendimento automatico che ti aiuta a trovare schemi nascosti comuni dai dati grezzi forniti.
2. Che cos'è la regressione logistica in Data Science?
La regressione logistica è anche chiamata modello logit. È un metodo per prevedere il risultato binario da una combinazione lineare di variabili predittive.
3. Indicare tre tipi di bias che possono verificarsi durante il campionamento
Nel processo di campionamento, ci sono tre tipi di bias, che sono:
- Bias di selezione
- Sotto pregiudizio di copertura
- Bias di sopravvivenza
4. Discutere l'algoritmo dell'albero decisionale
Un albero decisionale è un popolare algoritmo di apprendimento automatico supervisionato. Viene utilizzato principalmente per la regressione e la classificazione. Consente di suddividere un set di dati in sottoinsiemi più piccoli. L'albero decisionale può essere in grado di gestire dati sia categoriali che numerici.
5. Qual è la probabilità e la probabilità a priori?
La probabilità a priori è la proporzione della variabile dipendente nel set di dati mentre la probabilità è la probabilità di classificare un dato osservante in presenza di qualche altra variabile.
6. Spiegare i sistemi di raccomandazione?
È una sottoclasse delle tecniche di filtraggio delle informazioni. Ti aiuta a prevedere le preferenze o le valutazioni che gli utenti probabilmente daranno a un prodotto.
7. Indica tre svantaggi dell'utilizzo di un modello lineare
Tre svantaggi del modello lineare sono:
- L'assunzione di linearità degli errori.
- Non puoi usare questo modello per binari o contare i risultati
- Ci sono molti problemi di overfitting che non può risolvere
8. Perché è necessario eseguire il ricampionamento?
Il ricampionamento viene eseguito nei casi indicati di seguito:
- Stima dell'accuratezza delle statistiche del campione disegnando in modo casuale con la sostituzione da un set di punti dati o utilizzando come sottoinsiemi di dati accessibili
- Sostituzione di etichette sui punti dati durante l'esecuzione dei test necessari
- Convalida dei modelli utilizzando sottoinsiemi casuali
9. Elenca le librerie in Python utilizzate per l'analisi dei dati e i calcoli scientifici.
- SciPy
- Panda
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Cos'è l'analisi della potenza?
L'analisi della potenza è parte integrante del progetto sperimentale. Ti aiuta a determinare la dimensione del campione che richiede di scoprire l'effetto di una data dimensione da una causa con uno specifico livello di sicurezza. Consente inoltre di distribuire una particolare probabilità in un vincolo di dimensione del campione.
11. Spiegare il filtraggio collaborativo
Filtro collaborativo utilizzato per cercare modelli corretti collaborando punti di vista, più origini dati e vari agenti.
12. Cos'è il bias?
Il bias è un errore introdotto nel modello a causa dell'eccessiva semplificazione di un algoritmo di apprendimento automatico ". Può portare a un adattamento insufficiente.
13. Discutere di "ingenuo" in un algoritmo di Naive Bayes?
Il modello Naive Bayes Algorithm è basato sul teorema di Bayes. Descrive la probabilità di un evento. Si basa sulla conoscenza preliminare delle condizioni che potrebbero essere correlate a quell'evento specifico.
14. Cos'è una regressione lineare?
La regressione lineare è un metodo di programmazione statistica in cui il punteggio di una variabile "A" è previsto dal punteggio di una seconda variabile "B". B è indicata come variabile predittore e A come variabile criterio.
15. Indicare la differenza tra il valore atteso e il valore medio
Non ci sono molte differenze, ma entrambi questi termini sono usati in contesti diversi. Il valore medio viene generalmente indicato quando si discute di una distribuzione di probabilità, mentre il valore atteso viene indicato nel contesto di una variabile casuale.
16. Qual è lo scopo di condurre test A / B?
Test AB utilizzato per condurre esperimenti casuali con due variabili, A e B. L'obiettivo di questo metodo di test è scoprire le modifiche a una pagina Web per massimizzare o aumentare il risultato di una strategia.
17. Che cos'è l'apprendimento dell'insieme?
L'ensemble è un metodo per combinare insieme un insieme diversificato di studenti per improvvisare sulla stabilità e il potere predittivo del modello. Due tipi di metodi di apprendimento Ensemble sono:
Insaccamento
Il metodo di insaccamento ti aiuta a implementare studenti simili su piccole popolazioni campione. Ti aiuta a fare previsioni più vicine.
Potenziamento
Il potenziamento è un metodo iterativo che consente di regolare il peso di un'osservazione in base all'ultima classificazione. Il potenziamento riduce l'errore di bias e ti aiuta a costruire modelli predittivi forti.
18. Spiegare Autovalore e Autovettore
Gli autovettori servono per comprendere le trasformazioni lineari. I data scientist devono calcolare gli autovettori per una matrice di covarianza o correlazione. Gli autovalori sono le direzioni lungo l'utilizzo di specifici atti di trasformazione lineare comprimendo, capovolgendo o allungando.
19. Definire il termine convalida incrociata
La convalida incrociata è una tecnica di convalida per valutare in che modo i risultati dell'analisi statistica verranno generalizzati per un set di dati indipendente. Questo metodo viene utilizzato in contesti in cui l'obiettivo è previsto e occorre stimare la precisione con cui un modello si realizzerà.
20. Spiegare i passaggi per un progetto di analisi dei dati
I seguenti sono passaggi importanti coinvolti in un progetto di analisi:
- Comprendi il problema aziendale
- Esplora i dati e studiali attentamente.
- Preparare i dati per la modellazione trovando i valori mancanti e trasformando le variabili.
- Inizia a eseguire il modello e analizza il risultato dei Big Data.
- Convalida il modello con un nuovo set di dati.
- Implementa il modello e monitora il risultato per analizzare le prestazioni del modello per un periodo specifico.
21. Discuti sulle reti neurali artificiali
Le reti neurali artificiali (ANN) sono un insieme speciale di algoritmi che hanno rivoluzionato l'apprendimento automatico. Ti aiuta ad adattarti in base al cambiamento di input. Quindi la rete genera il miglior risultato possibile senza ridisegnare i criteri di output.
22. Che cos'è la propagazione della schiena?
La retro-propagazione è l'essenza dell'addestramento della rete neurale. È il metodo per regolare i pesi di una rete neurale in base al tasso di errore ottenuto nell'epoca precedente. Una corretta messa a punto di aiuta a ridurre i tassi di errore ea rendere affidabile il modello aumentandone la generalizzazione.
23. Cos'è una foresta casuale?
La foresta casuale è un metodo di apprendimento automatico che consente di eseguire tutti i tipi di attività di regressione e classificazione. Viene anche utilizzato per il trattamento dei valori mancanti e dei valori anomali.
24. Qual è l'importanza di avere un bias di selezione?
Il bias di selezione si verifica quando non si ottiene una randomizzazione specifica durante la selezione di individui o gruppi o dati da analizzare. Suggerisce che il campione fornito non rappresenta esattamente la popolazione che si intendeva analizzare.
25. Cos'è il metodo di clustering K-means?
Il clustering K-means è un importante metodo di apprendimento senza supervisione. È la tecnica per classificare i dati utilizzando un certo insieme di cluster che è chiamato K cluster. Viene distribuito per il raggruppamento per scoprire la somiglianza nei dati.
26. Spiegare la differenza tra Data Science e Data Analytics
I data scientist devono suddividere i dati per estrarre informazioni preziose che un analista di dati può applicare a scenari aziendali reali. La differenza principale tra i due è che i data scientist hanno più conoscenze tecniche rispetto agli analisti aziendali. Inoltre, non hanno bisogno di una comprensione del business richiesto per la visualizzazione dei dati.
27. Spiega il valore p?
Quando conduci un test di ipotesi nelle statistiche, un valore p ti consente di determinare la forza dei tuoi risultati. È un numero numerico compreso tra 0 e 1. In base al valore, ti aiuterà a denotare la forza del risultato specifico.
28. Definisci il termine deep learning
Il deep learning è un sottotipo di machine learning. Si occupa di algoritmi ispirati alla struttura chiamata reti neurali artificiali (ANN).
29. Spiegare il metodo per raccogliere e analizzare i dati per utilizzare i social media per prevedere le condizioni meteorologiche.
Puoi raccogliere dati sui social media utilizzando Facebook, Twitter, le API di Instagram. Ad esempio, per il tweeter, possiamo costruire una funzione da ogni tweet come data tweet, retweet, elenco di follower, ecc. Quindi puoi utilizzare un modello di serie temporale multivariato per prevedere le condizioni meteorologiche.
30. Quando è necessario aggiornare l'algoritmo in Data science?
È necessario aggiornare un algoritmo nella seguente situazione:
- Desideri che il tuo modello di dati si evolva come flussi di dati utilizzando l'infrastruttura
- L'origine dati sottostante sta cambiando
Se è non stazionarietà
31. Che cos'è la distribuzione normale
Una distribuzione normale è un insieme di una variabile continua distribuita su una curva normale o nella forma di una curva a campana. Puoi considerarlo come una distribuzione di probabilità continua utile in statistica. È utile analizzare le variabili e le loro relazioni quando si utilizza la curva di distribuzione normale.
32. Qual è la lingua migliore per l'analisi del testo? R o Python?
Python sarà più adatto per l'analisi del testo in quanto consiste in una ricca libreria nota come panda. Ti consente di utilizzare strumenti di analisi dei dati e strutture dati di alto livello, mentre R non offre questa funzionalità.
33. Spiegare i vantaggi dell'utilizzo delle statistiche da parte dei data scientist
Le statistiche aiutano i data scientist a farsi un'idea migliore delle aspettative del cliente. Utilizzando il metodo statistico, i Data Scientist possono acquisire conoscenze riguardanti l'interesse, il comportamento, il coinvolgimento, la fidelizzazione dei consumatori, ecc. Inoltre, consente di creare potenti modelli di dati per convalidare determinate inferenze e previsioni.
34. Assegna un nome ai vari tipi di framework di deep learning
- Pytorch
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- Chainer
- Keras
35 Spiega Auto-Encoder
Gli autoencoder stanno imparando le reti. Ti aiuta a trasformare gli input in output con un minor numero di errori. Ciò significa che l'output sarà il più vicino possibile all'input.
36. Definisci la macchina Boltzmann
Le macchine Boltzmann sono un semplice algoritmo di apprendimento. Ti aiuta a scoprire quelle caratteristiche che rappresentano regolarità complesse nei dati di allenamento. Questo algoritmo consente di ottimizzare i pesi e la quantità per il problema dato.
37. Spiegare perché la pulizia dei dati è essenziale e quale metodo utilizzare per mantenere i dati puliti
I dati sporchi spesso portano a interni errati, che possono danneggiare la prospettiva di qualsiasi organizzazione. Ad esempio, se desideri eseguire una campagna di marketing mirata. Tuttavia, i nostri dati ti dicono erroneamente che un prodotto specifico sarà richiesto dal tuo pubblico di destinazione; la campagna fallirà.
38. Che cosa sono la distribuzione distorta e la distribuzione uniforme?
La distribuzione asimmetrica si verifica quando i dati sono distribuiti su un lato qualsiasi del grafico, mentre la distribuzione uniforme viene identificata quando i dati sono distribuiti è uguale nell'intervallo.
39. Quando si verifica un underfitting in un modello statico?
L'underfitting si verifica quando un modello statistico o un algoritmo di apprendimento automatico non è in grado di catturare la tendenza sottostante dei dati.
40. Che cos'è l'apprendimento per rinforzo?
L'apprendimento per rinforzo è un meccanismo di apprendimento su come mappare le situazioni alle azioni. Il risultato finale dovrebbe aiutarti ad aumentare il segnale di ricompensa binaria. In questo metodo, allo studente non viene detto quale azione intraprendere, ma deve invece scoprire quale azione offre la massima ricompensa. Poiché questo metodo si basa sul meccanismo di ricompensa / penalità.
41. Assegna un nome agli algoritmi di uso comune.
I quattro algoritmi più comunemente usati dai Data Scientist sono:
- Regressione lineare
- Regressione logistica
- Foresta casuale
- KNN
42. Che cos'è la precisione?
La precisione è la metrica di errore più comunemente utilizzata è un meccanismo di classificazione. Il suo intervallo va da 0 a 1, dove 1 rappresenta il 100%
43. Che cos'è un'analisi univariata?
Un'analisi che viene applicata a nessun attributo alla volta è nota come analisi univariata. Boxplot è un modello univariato ampiamente utilizzato.
44. Come superi le sfide alle tue scoperte?
Al fine, per superare le sfide della mia scoperta, è necessario incoraggiare la discussione, dimostrare la leadership e il rispetto delle diverse opzioni.
45. Spiegare la tecnica di campionamento dei cluster in Data science
Un metodo di campionamento a grappolo viene utilizzato quando è difficile studiare la popolazione target distribuita e non è possibile applicare un semplice campionamento casuale.
46. Indicare la differenza tra un set di convalida e un set di test
Un set di convalida considerato principalmente come parte del set di addestramento in quanto viene utilizzato per la selezione dei parametri che consente di evitare l'eccessivo adattamento del modello in fase di costruzione.
Mentre un set di test viene utilizzato per testare o valutare le prestazioni di un modello di machine learning addestrato.
47. Spiega il termine Formula di probabilità binomiale?
"La distribuzione binomiale contiene le probabilità di ogni possibile successo su N prove per eventi indipendenti che hanno una probabilità di π di accadere".
48. Cos'è un richiamo?
Un richiamo è un rapporto tra il tasso positivo reale e il tasso positivo effettivo. Va da 0 a 1.
49. Discuti sulla distribuzione normale
Distribuzione normale equamente distribuita come tale la media, la mediana e il modo sono uguali.
50. Mentre lavori su un set di dati, come puoi selezionare variabili importanti? Spiegare
È possibile utilizzare i seguenti metodi di selezione delle variabili:
- Rimuovere le variabili correlate prima di selezionare variabili importanti
- Usa la regressione lineare e seleziona le variabili che dipendono da quei valori p.
- Utilizzare la selezione all'indietro, in avanti e la selezione graduale
- Usa Xgboost, Foresta casuale e grafico dell'importanza delle variabili del grafico.
- Misurare il guadagno di informazioni per il dato insieme di funzioni e selezionare le prime n funzioni di conseguenza.
51. È possibile catturare la correlazione tra variabile continua e categoriale?
Sì, possiamo utilizzare l'analisi della tecnica di covarianza per catturare l'associazione tra variabili continue e categoriali.
52. Trattare una variabile categoriale come una variabile continua risulterebbe in un modello predittivo migliore?
Sì, il valore categoriale deve essere considerato come una variabile continua solo quando la variabile è di natura ordinale. Quindi è un modello predittivo migliore.