Apprendimento senza supervisione
L'apprendimento senza supervisione è una tecnica di apprendimento automatico in cui gli utenti non devono supervisionare il modello. Invece, consente al modello di lavorare da solo per scoprire schemi e informazioni che in precedenza non erano stati rilevati. Si occupa principalmente dei dati non etichettati.
Algoritmi di apprendimento senza supervisione
Gli algoritmi di apprendimento senza supervisione consentono agli utenti di eseguire attività di elaborazione più complesse rispetto all'apprendimento supervisionato. Tuttavia, l'apprendimento senza supervisione può essere più imprevedibile rispetto ad altri metodi di apprendimento naturali. Gli algoritmi di apprendimento senza supervisione includono clustering, rilevamento di anomalie, reti neurali, ecc.
In questo tutorial imparerai:
- Esempio di machine learning senza supervisione
- Perché l'apprendimento senza supervisione?
- Tipi di apprendimento senza supervisione
- Clustering
- Tipi di clustering
- Associazione
- Apprendimento automatico supervisionato e non supervisionato
- Applicazioni dell'apprendimento automatico senza supervisione
- Svantaggi dell'apprendimento senza supervisione
Esempio di machine learning senza supervisione
Prendiamo il caso di un bambino e del suo cane di famiglia.
Conosce e identifica questo cane. Poche settimane dopo un amico di famiglia porta con sé un cane e cerca di giocare con il bambino.
Il bambino non ha visto questo cane prima. Ma riconosce molte caratteristiche (2 orecchie, occhi, camminare su 4 zampe) sono come il suo cane da compagnia. Identifica il nuovo animale come un cane. Questo è un apprendimento non supervisionato, in cui non ti viene insegnato ma impari dai dati (in questo caso i dati su un cane). Se fosse stato un apprendimento supervisionato, l'amico di famiglia avrebbe detto al bambino che è un cane.
Perché l'apprendimento senza supervisione?
Ecco i motivi principali per utilizzare l'apprendimento non supervisionato:
- L'apprendimento automatico senza supervisione rileva tutti i tipi di pattern sconosciuti nei dati.
- I metodi non supervisionati aiutano a trovare le caratteristiche che possono essere utili per la categorizzazione.
- Si svolge in tempo reale, quindi tutti i dati di input devono essere analizzati ed etichettati in presenza dei discenti.
- È più facile ottenere dati senza etichetta da un computer che dati etichettati, che richiedono un intervento manuale.
Tipi di apprendimento senza supervisione
Problemi di apprendimento senza supervisione ulteriormente raggruppati in problemi di raggruppamento e associazione.
Clustering
Il clustering è un concetto importante quando si tratta di apprendimento senza supervisione. Si occupa principalmente di trovare una struttura o un modello in una raccolta di dati non categorizzati. Gli algoritmi di clustering elaboreranno i dati e troveranno cluster (gruppi) naturali, se presenti nei dati. Puoi anche modificare il numero di cluster che i tuoi algoritmi devono identificare. Ti consente di regolare la granularità di questi gruppi.
Esistono diversi tipi di cluster che puoi utilizzare:
Esclusivo (partizionamento)
In questo metodo di clustering, i dati sono raggruppati in modo tale che un dato possa appartenere a un solo cluster.
Esempio: K-significa
Agglomerativo
In questa tecnica di clustering, ogni dato è un cluster. Le unioni iterative tra i due cluster più vicini riducono il numero di cluster.
Esempio: cluster gerarchico
Sovrapposizione
In questa tecnica, i set fuzzy vengono utilizzati per raggruppare i dati. Ogni punto può appartenere a due o più cluster con gradi di appartenenza separati.
Qui, i dati verranno associati a un valore di appartenenza appropriato. Esempio: Fuzzy C-Means
Probabilistico
Questa tecnica utilizza la distribuzione di probabilità per creare i cluster
Esempio: seguenti parole chiave
- "scarpa da uomo."
- "scarpa da donna".
- "guanto da donna".
- "guanto da uomo."
possono essere raggruppati in due categorie "scarpa" e "guanto" o "uomo" e "donna".
Tipi di clustering
- Raggruppamento gerarchico
- K-significa raggruppamento
- K-NN (k vicini più vicini)
- Analisi del componente principale
- Scomposizione di un valore singolo
- Analisi dei componenti indipendenti
Clustering gerarchico:
Il clustering gerarchico è un algoritmo che costruisce una gerarchia di cluster. Inizia con tutti i dati assegnati a un proprio cluster. Qui, due cluster vicini si troveranno nello stesso cluster. Questo algoritmo termina quando rimane un solo cluster.
K-significa clustering
K significa che è un algoritmo di clustering iterativo che ti aiuta a trovare il valore più alto per ogni iterazione. Inizialmente, viene selezionato il numero desiderato di cluster. In questo metodo di clustering, è necessario raggruppare i punti dati in k gruppi. Una k maggiore significa gruppi più piccoli con più granularità allo stesso modo. Un k inferiore significa gruppi più grandi con meno granularità.
L'output dell'algoritmo è un gruppo di "etichette". Assegna il punto dati a uno dei k gruppi. Nel clustering k-means, ogni gruppo viene definito creando un centroide per ogni gruppo. I centroidi sono come il cuore del cluster, che cattura i punti più vicini a loro e li aggiunge al cluster.
Il clustering K-mean definisce ulteriormente due sottogruppi:
- Raggruppamento agglomerativo
- Dendrogramma
Raggruppamento agglomerativo:
Questo tipo di clustering K-means inizia con un numero fisso di cluster. Alloca tutti i dati nel numero esatto di cluster. Questo metodo di clustering non richiede il numero di cluster K come input. Il processo di agglomerazione inizia formando ogni dato come un singolo cluster.
Questo metodo utilizza una misura della distanza, riduce il numero di cluster (uno in ogni iterazione) mediante il processo di fusione. Infine, abbiamo un grande cluster che contiene tutti gli oggetti.
Dendrogramma:
Nel metodo di clustering Dendrogram, ogni livello rappresenterà un possibile cluster. L'altezza del dendrogramma mostra il livello di somiglianza tra due cluster di join. Più vicini al fondo del processo sono cluster più simili che sta trovando del gruppo dal dendrogramma che non è naturale e per lo più soggettivo.
K- Vicini più vicini
K- Il vicino più vicino è il più semplice di tutti i classificatori di apprendimento automatico. Si differenzia da altre tecniche di apprendimento automatico, in quanto non produce un modello. È un semplice algoritmo che memorizza tutti i casi disponibili e classifica le nuove istanze in base a una misura di somiglianza.
Funziona molto bene quando c'è una distanza tra gli esempi. La velocità di apprendimento è lenta quando il set di addestramento è grande e il calcolo della distanza non è banale.
Analisi dei componenti principali:
Nel caso in cui desideri uno spazio di dimensioni superiori. Devi selezionare una base per quello spazio e solo i 200 punteggi più importanti di quella base. Questa base è nota come componente principale. Il sottoinsieme selezionato costituisce un nuovo spazio di piccole dimensioni rispetto allo spazio originale. Mantiene il più possibile la complessità dei dati.
Associazione
Le regole di associazione consentono di stabilire associazioni tra oggetti di dati all'interno di database di grandi dimensioni. Questa tecnica senza supervisione riguarda la scoperta di relazioni interessanti tra variabili in database di grandi dimensioni. Ad esempio, le persone che acquistano una nuova casa molto probabilmente acquisteranno nuovi mobili.
Altri esempi:
- Un sottogruppo di malati di cancro raggruppati in base alle misurazioni dell'espressione genica
- Gruppi di acquirenti in base alla loro cronologia di navigazione e acquisto
- Gruppo di film in base alla valutazione data dagli spettatori di film
Apprendimento automatico supervisionato e non supervisionato
Parametri | Tecnica di apprendimento automatico supervisionato | Tecnica di apprendimento automatico senza supervisione |
Dati in ingresso | Gli algoritmi vengono addestrati utilizzando dati etichettati. | Gli algoritmi vengono utilizzati su dati non etichettati |
Complessità computazionale | L'apprendimento supervisionato è un metodo più semplice. | L'apprendimento senza supervisione è complesso dal punto di vista computazionale |
Precisione | Metodo altamente accurato e affidabile. | Metodo meno accurato e affidabile. |
Applicazioni dell'apprendimento automatico senza supervisione
Alcune applicazioni delle tecniche di apprendimento automatico senza supervisione sono:
- Il clustering suddivide automaticamente il set di dati in gruppi in base alle loro somiglianze
- Il rilevamento di anomalie può rilevare punti dati insoliti nel set di dati. È utile per trovare transazioni fraudolente
- Il mining di associazioni identifica set di elementi che spesso si trovano insieme nel tuo set di dati
- I modelli a variabili latenti sono ampiamente utilizzati per la preelaborazione dei dati. Come ridurre il numero di funzionalità in un set di dati o scomporre il set di dati in più componenti
Svantaggi dell'apprendimento senza supervisione
- Non è possibile ottenere informazioni precise sull'ordinamento dei dati e l'output come dati utilizzati nell'apprendimento senza supervisione è etichettato e non noto
- La minore precisione dei risultati è dovuta al fatto che i dati di input non sono noti e non sono etichettati in anticipo dalle persone. Ciò significa che la macchina richiede di farlo da sola.
- Le classi spettrali non corrispondono sempre alle classi informative.
- L'utente deve dedicare tempo a interpretare ed etichettare le classi che seguono quella classificazione.
- Le proprietà spettrali delle classi possono anche cambiare nel tempo, quindi non puoi avere le stesse informazioni sulla classe mentre ti sposti da un'immagine all'altra.
Sommario
- L'apprendimento senza supervisione è una tecnica di apprendimento automatico, in cui non è necessario supervisionare il modello.
- L'apprendimento automatico senza supervisione ti aiuta a trovare tutti i tipi di schemi sconosciuti nei dati.
- Il clustering e l'associazione sono due tipi di apprendimento senza supervisione.
- Quattro tipi di metodi di raggruppamento sono 1) Esclusivo 2) Agglomerativo 3) Sovrapposizione 4) Probabilistico.
- I tipi di raggruppamento importanti sono: 1) Raggruppamento gerarchico 2) Raggruppamento K-mean 3) K-NN 4) Analisi dei componenti principali 5) Decomposizione dei valori singolari 6) Analisi dei componenti indipendenti.
- Le regole di associazione consentono di stabilire associazioni tra oggetti di dati all'interno di database di grandi dimensioni.
- In Apprendimento supervisionato, gli algoritmi vengono addestrati utilizzando dati etichettati mentre in Apprendimento non supervisionato vengono utilizzati algoritmi su dati non etichettati.
- Il rilevamento delle anomalie può rilevare punti dati importanti nel set di dati che è utile per trovare transazioni fraudolente.
- Il più grande svantaggio dell'apprendimento senza supervisione è che non è possibile ottenere informazioni precise sull'ordinamento dei dati.