En théorie de l'information, la fonction d'entropie binaire, notée ou , est définie comme l'entropie de Shannon d'un processus de Bernoulli (variable binaire iid) de probabilité de l'une des deux valeurs, et est donnée par la formule :

La base du logarithme correspond au choix des unités d'information ; la base e ( logarithme népérien ) correspond aux nats et est mathématiquement pratique, tandis que la base 2 ( logarithme binaire ) correspond aux shannons et est plus conventionnelle (comme utilisé dans le graphique) ; plus précisément :
On peut noter que les valeurs à 0 et 1 sont données par la limite (démontrable par la règle de L'Hôpital) ; et que « binaire » fait référence à deux valeurs possibles pour la variable, et non aux unités d'information.
Quand , la fonction d'entropie binaire atteint sa valeur maximale de 1 shannon (1 unité binaire d'information) ; c'est le cas d'un lancer de pièce non biaisé. Pour les valeurs ou , l'entropie binaire est de 0 (quelle que soit l'unité), ce qui correspond à une absence d'information, puisqu'il n'y a pas d'incertitude sur la variable.
Notation
modifierLa fonction d'entropie binaire est un cas particulier de , la fonction d'entropie générale. Elle se distingue de la fonction d'entropie générale dans le sens où la première méthode prend un nombre réel unique comme paramètre, tandis que la seconde prend une distribution ou une variable aléatoire comme paramètre. Ainsi, l'entropie binaire (de p) correspond à l'entropie d'une loi de Bernoulli , donc .
En écrivant la probabilité que chacune des deux valeurs soit p et q, on obtient : et , cela correspond à
La fonction d'entropie binaire est parfois également avec la notation Cependant, elle est différente de l'entropie de Rényi, également notée , et ne doit pas être confondue avec celle-ci.
Explication
modifierEn termes de théorie de l'information, l'entropie est considérée comme une mesure de l'incertitude d'un message. Pour l'exprimer intuitivement, on suppose dans un premier temps . À cette probabilité, l'événement est certain de ne jamais se produire, et il n'y a donc aucune incertitude, ce qui conduit à une entropie nulle. Pour , le résultat est à nouveau certain, donc l'entropie est également nulle ici. Pour l'incertitude est alors maximale ; si l'on devait parier équitablement sur le résultat dans ce cas, la connaissance préalable des probabilités ne présenterait aucun avantage. Dans ce cas, l'entropie est maximale pour une valeur de 1 bit. Les valeurs intermédiaires se situent entre ces deux cas ; par exemple, dans le cas où , il subsiste toujours une certaine incertitude quant au résultat, mais on peut tout de même prédire correctement le résultat la plupart du temps, de sorte que la mesure d'incertitude, ou entropie, est inférieure à 1 bit.
Propriétés
modifierDérivée
modifierLa dérivée de la fonction d'entropie binaire peut être exprimée comme l'opposé de la fonction logit :
- .
où a désigne la base donnée du logarithme.
Conjugué convexe
modifierLe conjugué convexe (plus précisément, la transformée de Legendre) de l'entropie binaire (de base e) est la fonction softplus négative. En effet (d'après la définition de la transformée de Legendre : les dérivées sont des fonctions inverses), la dérivée de l'entropie binaire négative est le logit, dont la fonction inverse est la fonction logistique, qui est la dérivée de softplus.
La fonction softplus peut être interprété comme une perte logistique ; par dualité, minimiser la perte logistique revient donc à maximiser l’entropie. Ceci justifie le principe d’entropie maximale comme minimisation de la perte.
Série de Taylor
modifierLe développement en série de Taylor de la fonction d'entropie binaire en 1/2 est
qui converge vers la fonction d'entropie binaire pour toutes les valeurs .
Bornes
modifierLes majorations suivantes s'appliquent à [1]:
et
où ln désigne le logarithme naturel.
Voir aussi
modifier- Entropie métrique
- Théorie de l'information
- Entropie de Shannon
- Quantité d'information
Références
modifier- ↑ « Bounds for entropy and divergence for distributions over a two-element set. », JIPAM. Journal of Inequalities in Pure & Applied Mathematics, vol. 2, no 2, 2001, Paper No. 25, 13 p.-Paper No. 25, 13 p (lire en ligne)
Bibliographie
modifier- (en) David J. C. MacKay, Information Theory, Inference, and Learning Algorithms, Cambridge, Cambridge University Press, 2003 (ISBN 0-521-64298-1, lire en ligne)