Matrice de confusion 📖 Wikipedia

Cet article est une ébauche concernant l'intelligence artificielle.

En apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C^[1]. Attention il y a parfois interversion des axes de la matrice en fonction des auteurs.

Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un système de classification parvient à classifier correctement.

Cette notion est directement le tableau de contingence (notion de statistiques) qui montre les risques d'erreur de 1ère et de 2eme espèce d'un test d'hypothèse (notion d'analyse de données / Statistiques).

Matrice

modifier

La matrice projette les résultats du test sur les colonnes et les valeurs théoriques sur les lignes. Les valeurs sur la diagonale sont les résultats corrects. Les autres valeurs sont les erreurs.


		Valeurs prédites
		Positifs	Négatifs
Valeurs attendues	Positifs	Vrais Positifs (VP)	Faux Négatifs (FN)
Valeurs attendues	Négatifs	Faux Positifs (FP)	Vrais Négatifs (VN)

Vrai positif : détection correcte
Vrai négatif : rejet correct
Faux positif : fausse alerte, surestimation
Faux négatif : manqué, sous-estimation

Problème de classification

modifier

Dans le cas d’une classification avec plus de 2 catégories, la construction reste la même. Lorsque l’on considère la qualité de la prédiction pour une catégorie en particulier (positif), toutes les autres catégories sont regroupées sous le terme « négatif ».

Métriques

modifier

Les grandes matrices de confusion ne sont pas facilement lisibles et comparables. Pour cela il existe de nombreuses mesures de l’exactitude des résultats. Les termes présentés dans cet article utilisent le sens adapté à de la classification, et non à la mesure de valeurs réelles.

La mesure la plus représentative d’une matrice de confusion est le coefficient phi^[2].

Prévalence

modifier

La prévalence est la proportion d’une catégorie dans une population. Si un groupe a une forte ou faible prévalence, la population est déséquilibrée et de mauvaises interprétations sont plus fréquentes.

${\text{Prévalence}}={\frac {P}{Total}}$

Sensibilité et spécificité

modifier

La sensibilité mesure la capacité d’un test binaire à donner une réponse positive lorsqu’une réponse positive est attendue.

${\text{Sensibilité}}={\frac {VP}{P}}={\frac {VP}{VP+FN}}$

La spécificité mesure la capacité d’un test binaire à donner une réponse négative lorsqu’une réponse négative est attendue.

${\text{Spécificité}}={\frac {VN}{N}}={\frac {VN}{VN+FP}}$

Dans le cas d’un test de détection, les faux négatifs sont les éléments non détectés. Le rappel (=sensibilité) mesure la capacité à détecter tous les éléments présents, mais il n’est pas pénalisé par les détections en trop. Il n’existe jamais de vrais négatifs en détection.

Précision

modifier

La précision est la proportion d’éléments réellement positifs parmi les éléments proposés comme positifs.

${\text{Précision}}={\frac {VP}{VP+FP}}$

Exactitude

modifier

L’exactitude est la proportion d’éléments corrects, peu importe leur valeur. Les éléments corrects sont toutes les valeurs sur la diagonale.

${\text{Exactitude}}={\frac {VP+VN}{Total}}={\frac {Tr(M)}{\sum (M)}}$

Exemple

modifier

On souhaite mesurer la qualité d'un système automatique de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur soit testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et les 100 autres relèvent de pourriels.

Pour cela, on veut savoir :

combien de courriels seront faussement estimés comme des pourriels (fausses alarmes) par le classificateur et
combien de pourriels ne seront pas estimés comme tels (non détections) et classifiés à tort comme courriels par le classificateur.

La matrice de confusion suivante se lit alors comme suit :

horizontalement, sur les 100 courriels initiaux (ie : 95+5), 95 ont été estimés par le classificateur comme tels et 5 ont été estimés comme pourriels (ie : 5 faux-négatifs),
horizontalement, sur les 100 pourriels initiaux (ie : 3+97), 3 ont été estimés par le classificateur comme courriels (ie : 3 faux-positifs) et 97 ont été estimés comme pourriels,
verticalement, sur les 98 mails (ie : 95+3) estimés par le classificateur comme courriels, 3 sont en fait des pourriels,
verticalement, sur les 102 mails (ie : 5+97) estimés par le classificateur comme pourriels, 5 sont en fait des courriels.
diagonalement (du haut gauche, au bas droit), sur les 200 courriels initiaux, 192 (95 + 97) ont été estimés correctement par le classificateur.

De manière plus proche de la théorie mathématique du test statistique, les "faux positifs" sont le risque de première espèce (probabilité alpha), les "faux négatifs" sont le risque de seconde espèce (probabilité beta). 1-beta est la puissance du test, ie son caractère discriminant. 1-alpha est le "niveau de confiance" du test.

		`courriel'	`pourriel'
		Classe estimée - (par le classificateur)
Classe réelle - (selon le destinataire humain des mails)	courriel	95 (vrais positifs)	5 (faux négatifs)
	pourriel	3 (faux positifs)	97 (vrais négatifs)

Cette notion s'étend à un nombre quelconque de classes. On peut normaliser cette matrice pour en simplifier la lecture : dans ce cas, un classificateur sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.

Pour aller plus loin :

la 2^e ligne horizontale des pourriels nous donne une indication sur la capacité à détecter automatiquement les pourriels (ie : 97% de succès).
la 2^e ligne verticale des pourriels nous donne une indication sur à quel point les prédictions (détection de pourriels) sont fiables (ie : 5% d'erreurs sur les courriels et 3% d'erreurs sur les pourriels soit 4% d'erreur de classification d'un mail en moyenne par le classificateur).

Notes et références

modifier

↑ « Confusion Matrix », sur www2.cs.uregina.ca (consulté le 16 mai 2019)
↑ (en) Chicco D, Jurman G, The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation, janvier 2020 (lire en ligne)

Articles connexes

modifier

[1] « Confusion Matrix », sur www2.cs.uregina.ca (consulté le 16 mai 2019)

[2] (en) Chicco D, Jurman G, The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation, janvier 2020 (lire en ligne)

[1]

[2]

Matrice de confusion 📖 Wikipedia

Sommaire

Matrice

Problème de classification

Métriques

Prévalence

Sensibilité et spécificité

Précision

Exactitude

Exemple

Notes et références

Articles connexes

📚 Artikel Terkait di Wikipedia

Non-binarité

Pansexualité

Pronom personnel neutre en français contemporain

Forme quadratique binaire

Motif binaire local

Pandalidae

Arbre de décision (apprentissage)

Beta Delphini