En apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C[1]. Attention il y a parfois interversion des axes de la matrice en fonction des auteurs.

Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un système de classification parvient à classifier correctement.

Cette notion est directement le tableau de contingence (notion de statistiques) qui montre les risques d'erreur de 1ère et de 2eme espèce d'un test d'hypothèse (notion d'analyse de données / Statistiques).

Matrice

modifier

La matrice projette les résultats du test sur les colonnes et les valeurs théoriques sur les lignes. Les valeurs sur la diagonale sont les résultats corrects. Les autres valeurs sont les erreurs.

Valeurs prédites
Positifs Négatifs
Valeurs attendues Positifs Vrais Positifs

(VP)

Faux Négatifs

(FN)

Négatifs Faux Positifs

(FP)

Vrais Négatifs

(VN)

  • Vrai positif : détection correcte
  • Vrai négatif : rejet correct
  • Faux positif : fausse alerte, surestimation
  • Faux négatif : manqué, sous-estimation

Problème de classification

modifier

Dans le cas d’une classification avec plus de 2 catégories, la construction reste la même. Lorsque l’on considère la qualité de la prédiction pour une catégorie en particulier (positif), toutes les autres catégories sont regroupées sous le terme « négatif ».

Métriques

modifier

Les grandes matrices de confusion ne sont pas facilement lisibles et comparables. Pour cela il existe de nombreuses mesures de l’exactitude des résultats. Les termes présentés dans cet article utilisent le sens adapté à de la classification, et non à la mesure de valeurs réelles.

La mesure la plus représentative d’une matrice de confusion est le coefficient phi[2].

Prévalence

modifier

La prévalence est la proportion d’une catégorie dans une population. Si un groupe a une forte ou faible prévalence, la population est déséquilibrée et de mauvaises interprétations sont plus fréquentes.

 

La sensibilité mesure la capacité d’un test binaire à donner une réponse positive lorsqu’une réponse positive est attendue.

 

La spécificité mesure la capacité d’un test binaire à donner une réponse négative lorsqu’une réponse négative est attendue.

 

Dans le cas d’un test de détection, les faux négatifs sont les éléments non détectés. Le rappel (=sensibilité) mesure la capacité à détecter tous les éléments présents, mais il n’est pas pénalisé par les détections en trop. Il n’existe jamais de vrais négatifs en détection.

Précision

modifier

La précision est la proportion d’éléments réellement positifs parmi les éléments proposés comme positifs.

 

Exactitude

modifier

L’exactitude est la proportion d’éléments corrects, peu importe leur valeur. Les éléments corrects sont toutes les valeurs sur la diagonale.

 

Exemple

modifier

On souhaite mesurer la qualité d'un système automatique de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur soit testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et les 100 autres relèvent de pourriels.

Pour cela, on veut savoir :

  • combien de courriels seront faussement estimés comme des pourriels (fausses alarmes) par le classificateur et
  • combien de pourriels ne seront pas estimés comme tels (non détections) et classifiés à tort comme courriels par le classificateur.

La matrice de confusion suivante se lit alors comme suit :

  • horizontalement, sur les 100 courriels initiaux (ie : 95+5), 95 ont été estimés par le classificateur comme tels et 5 ont été estimés comme pourriels (ie : 5 faux-négatifs),
  • horizontalement, sur les 100 pourriels initiaux (ie : 3+97), 3 ont été estimés par le classificateur comme courriels (ie : 3 faux-positifs) et 97 ont été estimés comme pourriels,
  • verticalement, sur les 98 mails (ie : 95+3) estimés par le classificateur comme courriels, 3 sont en fait des pourriels,
  • verticalement, sur les 102 mails (ie : 5+97) estimés par le classificateur comme pourriels, 5 sont en fait des courriels.
  • diagonalement (du haut gauche, au bas droit), sur les 200 courriels initiaux, 192 (95 + 97) ont été estimés correctement par le classificateur.

De manière plus proche de la théorie mathématique du test statistique, les "faux positifs" sont le risque de première espèce (probabilité alpha), les "faux négatifs" sont le risque de seconde espèce (probabilité beta). 1-beta est la puissance du test, ie son caractère discriminant. 1-alpha est le "niveau de confiance" du test.

Classe estimée - (par le classificateur)
`courriel' `pourriel'
Classe réelle -
(selon le destinataire
humain des mails)
courriel 95
(vrais positifs)
5
(faux négatifs)
pourriel 3
(faux positifs)
97
(vrais négatifs)

Cette notion s'étend à un nombre quelconque de classes. On peut normaliser cette matrice pour en simplifier la lecture : dans ce cas, un classificateur sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.

Pour aller plus loin :

  • la 2e ligne horizontale des pourriels nous donne une indication sur la capacité à détecter automatiquement les pourriels (ie : 97% de succès).
  • la 2e ligne verticale des pourriels nous donne une indication sur à quel point les prédictions (détection de pourriels) sont fiables (ie : 5% d'erreurs sur les courriels et 3% d'erreurs sur les pourriels soit 4% d'erreur de classification d'un mail en moyenne par le classificateur).

Notes et références

modifier
  1. « Confusion Matrix », sur www2.cs.uregina.ca (consulté le 16 mai 2019)
  2. (en) Chicco D, Jurman G, The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation, janvier 2020 (lire en ligne)

Articles connexes

modifier

📚 Artikel Terkait di Wikipedia

Non-binarité

recognition of non-binary gender by country », sur Equaldex (consulté le 9 février 2026) (en) Emmie Matsuno et Stephanie L. Budge, « Non-binary/Genderqueer Identities:

Pansexualité

(DOI 10.1080/15299716.2016.1196157). (en) Autumn Elizabeth, « Challenging the Binary: Sexual Identity That Is Not Duality », Journal of Bisexuality, vol. 13

Pronom personnel neutre en français contemporain

Aric Knisely, « Le français non‐binaire : Linguistic forms used by non‐binary speakers of French », Foreign Language Annals, vol. 53, no 4,‎ décembre

Forme quadratique binaire

Binary Quadratic Forms : Classical Theory and Modern Computations, Springer, 1989 (lire en ligne), p. 22-23. (en) « Reduction of an indefinite binary

Motif binaire local

recommandations des projets correspondants. Les motifs binaires locaux (local binary patterns en anglais) sont des caractéristiques utilisées en vision par ordinateur

Pandalidae

Plesionika Bate, 1888 genre Stylopandalus Coutière, 1905 Haworth, 1825 : A new binary arrangement of the macrurous Crustacea. Philosophical Magazine and Journal

Arbre de décision (apprentissage)

types d'arbre de décision en fouille de données : Les arbres de classification (Classification Tree) permettent de prédire à quelle classe la variable-cible

Beta Delphini

1995 (Bibcode 1995yCat.5050....0H) (en) T. W. Edwards, « MK classification for visual binary components », The Astronomical Journal, vol. 81,‎ avril 1976