Cos'è la matrice di confusione?
Una matrice di confusione è una tecnica di misurazione delle prestazioni per la classificazione dell'apprendimento automatico. È una sorta di tabella che ti aiuta a conoscere le prestazioni del modello di classificazione su un insieme di dati di prova per cui sono noti i valori reali. Il termine matrice di confusione è di per sé molto semplice, ma la relativa terminologia può creare un po 'di confusione. Di seguito vengono fornite alcune semplici spiegazioni per questa tecnica.
In questo tutorial imparerai,
- Cos'è la matrice di confusione?
- Quattro risultati della matrice di confusione
- Esempio di matrice di confusione:
- Come calcolare una matrice di confusione
- Altri termini importanti che utilizzano una matrice di confusione
- Perché hai bisogno della matrice di confusione?
Quattro risultati della matrice di confusione
La matrice di confusione visualizza l'accuratezza di un classificatore confrontando le classi effettive e previste. La matrice di confusione binaria è composta da quadrati:

- TP: Vero positivo: valori previsti correttamente previsti come positivi effettivi
- FP: I valori previsti hanno previsto in modo errato un effettivo positivo. vale a dire, valori negativi previsti come positivi
- FN: falso negativo: valori positivi previsti come negativi
- TN: True Negative: Valori previsti correttamente previsti come negativi effettivi
È possibile calcolare il test di accuratezza dalla matrice di confusione:
Esempio di matrice di confusione:
Confusion Matrix è un utile metodo di apprendimento automatico che consente di misurare la curva di richiamo, precisione, accuratezza e AUC-ROC. Di seguito viene fornito un esempio per conoscere i termini Vero positivo, Vero negativo, Falso negativo e Vero negativo.
Vero positivo:
Hai proiettato positivo e si è rivelato vero. Ad esempio, avevi previsto che la Francia avrebbe vinto la Coppa del mondo e ha vinto.
Vero negativo:
Quando hai predetto negativo, ed è vero. Avevi previsto che l'Inghilterra non avrebbe vinto e ha perso.
Falso positivo:
La tua previsione è positiva ed è falsa.
Avevi previsto che l'Inghilterra avrebbe vinto, ma ha perso.
Falso negativo:
La tua previsione è negativa e anche il risultato è falso.
Avevi previsto che la Francia non avrebbe vinto, ma ha vinto.
Ricorda che descriviamo i valori previsti come Vero o Falso o Positivo e Negativo.
Come calcolare una matrice di confusione
Ecco un processo passo passo per il calcolo di una matrice di confusione nel data mining
- Passaggio 1) Innanzitutto, è necessario testare il set di dati con i valori dei risultati attesi.
- Passaggio 2) Prevedi tutte le righe nel set di dati di test.
- Passaggio 3) Calcola le previsioni e i risultati attesi:
- Il totale delle previsioni corrette di ciascuna classe.
- Il totale delle previsioni errate di ciascuna classe.
Successivamente, questi numeri sono organizzati nei metodi indicati di seguito:
- Ogni riga della matrice si collega a una classe prevista.
- Ogni colonna della matrice corrisponde a una classe effettiva.
- I conteggi totali della classificazione corretta e non corretta vengono inseriti nella tabella.
- La somma delle previsioni corrette per una classe va nella colonna prevista e nella riga prevista per quel valore di classe.
- La somma delle previsioni errate per una classe va nella riga prevista per quel valore di classe e nella colonna prevista per quel valore di classe specifico.
Altri termini importanti che utilizzano una matrice di confusione
- Valore predittivo positivo (PVV): è molto vicino alla precisione. Una differenza significativa tra i due termini è che PVV considera la prevalenza. Nella situazione in cui le classi sono perfettamente bilanciate, il valore predittivo positivo è lo stesso della precisione.
- Tasso di errore nullo: questo termine viene utilizzato per definire quante volte la tua previsione sarebbe sbagliata se puoi prevedere la classe di maggioranza. Puoi considerarlo come una metrica di base per confrontare il tuo classificatore.
- Punteggio F: il punteggio F1 è un punteggio medio ponderato del vero positivo (richiamo) e della precisione.
- Curva Roc: la curva Roc mostra i tassi di veri positivi rispetto al tasso di falsi positivi in vari punti di taglio. Dimostra anche un compromesso tra sensibilità (richiamo e specificità o il tasso vero negativo).
- Precisione: la metrica di precisione mostra l'accuratezza della classe positiva. Misura la probabilità che la previsione della classe positiva sia corretta.
Il punteggio massimo è 1 quando il classificatore classifica perfettamente tutti i valori positivi. La precisione da sola non è molto utile perché ignora la classe negativa. La metrica è generalmente associata alla metrica Recall. Il richiamo è anche chiamato sensibilità o tasso di vero positivo.
- Sensibilità : la sensibilità calcola il rapporto tra le classi positive rilevate correttamente. Questa metrica indica quanto è bravo il modello a riconoscere una classe positiva.
Perché hai bisogno della matrice di confusione?
Ecco i vantaggi / vantaggi dell'utilizzo di una matrice di confusione.
- Mostra come ogni modello di classificazione è confuso quando fa previsioni.
- La matrice di confusione non solo ti fornisce informazioni sugli errori commessi dal tuo classificatore, ma anche sui tipi di errori che vengono commessi.
- Questa ripartizione ti aiuta a superare la limitazione dell'utilizzo della sola precisione di classificazione.
- Ogni colonna della matrice di confusione rappresenta le istanze di quella classe prevista.
- Ogni riga della matrice di confusione rappresenta le istanze della classe effettiva.
- Fornisce informazioni non solo sugli errori commessi da un classificatore, ma anche sugli errori che vengono commessi.