Cos'è l'apprendimento automatico supervisionato?
In Apprendimento supervisionato, addestrate la macchina utilizzando dati che sono ben "etichettati ". Significa che alcuni dati sono già contrassegnati con la risposta corretta. Può essere paragonato all'apprendimento che avviene in presenza di un supervisore o di un insegnante.
Un algoritmo di apprendimento supervisionato apprende dai dati di addestramento etichettati, aiuta a prevedere i risultati per i dati imprevisti.
Creare, scalare e distribuire con successo modelli di machine learning supervisionati e accurati richiede tempo e competenze tecniche da parte di un team di data scientist altamente qualificati. Inoltre, il data scientist deve ricostruire i modelli per assicurarsi che le informazioni fornite rimangano vere fino a quando i dati non cambiano.
In questo tutorial imparerai:
- Cos'è l'apprendimento automatico supervisionato?
- Come funziona l'apprendimento supervisionato
- Tipi di algoritmi di machine learning supervisionati
- Tecniche di machine learning supervisionate e non supervisionate
- Sfide nell'apprendimento automatico supervisionato
- Vantaggi dell'apprendimento supervisionato:
- Svantaggi dell'apprendimento supervisionato
- Migliori pratiche per l'apprendimento supervisionato
Come funziona l'apprendimento supervisionato
Ad esempio, vuoi addestrare una macchina per aiutarti a prevedere quanto tempo ti ci vorrà per tornare a casa dal tuo posto di lavoro. Qui, inizi creando un insieme di dati etichettati. Questi dati includono
- Condizioni meteo
- Ora del giorno
- Vacanze
Tutti questi dettagli sono i tuoi input. L'output è la quantità di tempo necessaria per tornare a casa in quel giorno specifico.
Istintivamente sai che se fuori piove, ti ci vorrà più tempo per tornare a casa. Ma la macchina ha bisogno di dati e statistiche.
Vediamo ora come sviluppare un modello di apprendimento supervisionato di questo esempio che aiuti l'utente a determinare il tempo di percorrenza. La prima cosa che devi creare è un set di allenamento. Questo set di allenamento conterrà il tempo totale del tragitto giornaliero e fattori corrispondenti come meteo, tempo, ecc. In base a questo set di allenamento, la tua macchina potrebbe vedere che c'è una relazione diretta tra la quantità di pioggia e il tempo che impiegherai per tornare a casa.
Quindi, accerta che più piove, più tempo dovrai guidare per tornare a casa tua. Potrebbe anche vedere la connessione tra il tempo in cui lasci il lavoro e il tempo in cui sarai in viaggio.
Più ti avvicini alle 18:00, più tempo impieghi a tornare a casa. La tua macchina potrebbe trovare alcune delle relazioni con i tuoi dati etichettati.
Questo è l'inizio del tuo modello di dati. Inizia a influenzare il modo in cui la pioggia influisce sul modo in cui le persone guidano. Comincia anche a vedere che più persone viaggiano in un particolare momento della giornata.
Tipi di algoritmi di machine learning supervisionati
Regressione:
La tecnica di regressione prevede un singolo valore di output utilizzando i dati di addestramento.
Esempio : è possibile utilizzare la regressione per prevedere il prezzo della casa dai dati di addestramento. Le variabili di input saranno località, dimensione di una casa, ecc.
Punti di forza : gli output hanno sempre un'interpretazione probabilistica e l'algoritmo può essere regolarizzato per evitare l'overfitting.
Punti deboli : la regressione logistica può sottoperformare quando ci sono confini decisionali multipli o non lineari. Questo metodo non è flessibile, quindi non cattura relazioni più complesse.
Regressione logistica:
Metodo di regressione logistica utilizzato per stimare valori discreti sulla base di un dato insieme di variabili indipendenti. Aiuta a prevedere la probabilità che si verifichi un evento adattando i dati a una funzione logit. Pertanto, è anche noto come regressione logistica. Poiché prevede la probabilità, il suo valore di output è compreso tra 0 e 1.
Di seguito sono riportati alcuni tipi di algoritmi di regressione
Classificazione:
Classificazione significa raggruppare l'output all'interno di una classe. Se l'algoritmo cerca di etichettare l'input in due classi distinte, si parla di classificazione binaria. La selezione tra più di due classi viene definita classificazione multiclasse.
Esempio : determinare se qualcuno sarà o meno un inadempiente del prestito.
Punti di forza : l'albero di classificazione si comporta molto bene nella pratica
Punti deboli : non vincolati, i singoli alberi sono soggetti a overfitting.
Ecco alcuni tipi di algoritmi di classificazione
Classificatori Naïve Bayes
Il modello naïve bayesiano (NBN) è facile da costruire e molto utile per set di dati di grandi dimensioni. Questo metodo è composto da grafici aciclici diretti con un genitore e diversi figli. Presuppone l'indipendenza tra i nodi figlio separati dal loro genitore.
Alberi decisionali
Gli alberi delle decisioni classificano le istanze ordinandole in base al valore della caratteristica. In questo metodo, ogni modalità è la caratteristica di un'istanza. Dovrebbe essere classificato e ogni ramo rappresenta un valore che il nodo può assumere. È una tecnica ampiamente utilizzata per la classificazione. In questo metodo, la classificazione è un albero noto come albero decisionale.
Ti aiuta a stimare i valori reali (costo di acquisto di un'auto, numero di chiamate, vendite mensili totali, ecc.).
Supporta la macchina vettoriale
Support vector machine (SVM) è un tipo di algoritmo di apprendimento sviluppato nel 1990. Questo metodo si basa sui risultati della teoria dell'apprendimento statistico introdotta da Vap Nik.
Le macchine SVM sono anche strettamente connesse alle funzioni del kernel, che è un concetto centrale per la maggior parte delle attività di apprendimento. Il framework del kernel e SVM vengono utilizzati in una varietà di campi. Include il recupero di informazioni multimediali, la bioinformatica e il riconoscimento di modelli.
Tecniche di machine learning supervisionate e non supervisionate
Basato su | Tecnica di apprendimento automatico supervisionato | Tecnica di apprendimento automatico senza supervisione |
Dati in ingresso | Gli algoritmi vengono addestrati utilizzando dati etichettati. | Gli algoritmi vengono utilizzati su dati non etichettati |
Complessità computazionale | L'apprendimento supervisionato è un metodo più semplice. | L'apprendimento senza supervisione è complesso dal punto di vista computazionale |
Precisione | Metodo altamente accurato e affidabile. | Metodo meno accurato e affidabile. |
Sfide nell'apprendimento automatico supervisionato
Ecco le sfide affrontate nell'apprendimento automatico supervisionato:
- La caratteristica di input irrilevante presenta i dati di addestramento potrebbe fornire risultati imprecisi
- La preparazione e la pre-elaborazione dei dati è sempre una sfida.
- La precisione ne risente quando i valori impossibili, improbabili e incompleti sono stati immessi come dati di addestramento
- Se l'esperto in questione non è disponibile, l'altro approccio è "forza bruta". Significa che devi pensare che le giuste caratteristiche (variabili di input) su cui addestrare la macchina. Potrebbe essere impreciso.
Vantaggi dell'apprendimento supervisionato:
- L'apprendimento supervisionato consente di raccogliere dati o produrre un output di dati dall'esperienza precedente
- Ti aiuta a ottimizzare i criteri di prestazione utilizzando l'esperienza
- L'apprendimento automatico supervisionato ti aiuta a risolvere vari tipi di problemi di calcolo del mondo reale.
Svantaggi dell'apprendimento supervisionato
- Il confine decisionale potrebbe essere sovrallenato se il tuo set di allenamento non ha esempi che desideri avere in una classe
- È necessario selezionare molti buoni esempi da ogni classe mentre si allena il classificatore.
- Classificare i big data può essere una vera sfida.
- La formazione per l'apprendimento supervisionato richiede molto tempo di calcolo.
Migliori pratiche per l'apprendimento supervisionato
- Prima di fare qualsiasi altra cosa, è necessario decidere quale tipo di dati utilizzare come set di addestramento
- È necessario decidere la struttura della funzione appresa e l'algoritmo di apprendimento.
- Ottieni risultati corrispondenti da esperti umani o da misurazioni
Sommario
- In Apprendimento supervisionato, addestrate la macchina utilizzando dati che sono ben "etichettati".
- Vuoi addestrare una macchina che ti aiuti a prevedere quanto tempo ti ci vorrà per tornare a casa dal tuo posto di lavoro è un esempio di apprendimento supervisionato
- La regressione e la classificazione sono due tipi di tecniche di apprendimento automatico con supervisione.
- L'apprendimento supervisionato è un metodo più semplice mentre l'apprendimento senza supervisione è un metodo complesso.
- La sfida più grande nell'apprendimento supervisionato è che i dati di formazione presenti sulla funzione di input irrilevante potrebbero fornire risultati imprecisi.
- Il vantaggio principale dell'apprendimento supervisionato è che consente di raccogliere dati o produrre un output di dati dall'esperienza precedente.
- Lo svantaggio di questo modello è che il confine decisionale potrebbe essere sovraccarico se il tuo set di allenamento non ha esempi che vuoi avere in una classe.
- Come best practice per supervisionare l'apprendimento, devi prima decidere quale tipo di dati utilizzare come set di formazione.