Fonction d'entropie binaire 📖 Wikipedia

En théorie de l'information, la fonction d'entropie binaire, notée $\operatorname {H} (p)$ ou $\operatorname {H} _{\text{b}}(p)$ , est définie comme l'entropie de Shannon d'un processus de Bernoulli (variable binaire iid) $X$ de probabilité $p$ de l'une des deux valeurs, et est donnée par la formule :

\operatorname {H} (X)=-p\log p-(1-p)\log(1-p).

La base du logarithme correspond au choix des unités d'information ; la base $e$ ( logarithme népérien ) correspond aux nats et est mathématiquement pratique, tandis que la base 2 ( logarithme binaire ) correspond aux shannons et est plus conventionnelle (comme utilisé dans le graphique) ; plus précisément :

\operatorname {H} (X)=-p\log _{2}p-(1-p)\log _{2}(1-p).

On peut noter que les valeurs à 0 et 1 sont données par la limite ${\textstyle \lim _{x\to 0^{+}}x\log x=0}$ (démontrable par la règle de L'Hôpital) ; et que « binaire » fait référence à deux valeurs possibles pour la variable, et non aux unités d'information.

Quand $p=1/2$ , la fonction d'entropie binaire atteint sa valeur maximale de 1 shannon (1 unité binaire d'information) ; c'est le cas d'un lancer de pièce non biaisé. Pour les valeurs $p=0$ ou $p=1$ , l'entropie binaire est de 0 (quelle que soit l'unité), ce qui correspond à une absence d'information, puisqu'il n'y a pas d'incertitude sur la variable.

Notation

modifier

La fonction d'entropie binaire $\operatorname {H} _{\mathrm {b} }(p)$ est un cas particulier de $\mathrm {H} (X)$ , la fonction d'entropie générale. Elle se distingue de la fonction d'entropie générale dans le sens où la première méthode prend un nombre réel unique comme paramètre, tandis que la seconde prend une distribution ou une variable aléatoire comme paramètre. Ainsi, l'entropie binaire (de $p$ ) correspond à l'entropie d'une loi de Bernoulli $X\sim {\mathcal {B}}(p)$ , donc $\operatorname {H} _{\mathrm {b} }(p)=\mathrm {H} \left({\mathcal {B}}(p)\right)$ .

En écrivant la probabilité que chacune des deux valeurs soit $p$ et $q$ , on obtient : $p+q=1$ et $q=1-p$ , cela correspond à

\operatorname {H} (X)=-p\log p-(1-p)\log(1-p)=-p\log p-q\log q=-\sum _{x\in X}\mathbb {P} (X=x)\cdot \log \mathbb {P} (X=x)=\mathrm {H} \left({\mathcal {B}}(p)\right).

La fonction d'entropie binaire est parfois également avec la notation $\operatorname {H} _{2}(p)$ Cependant, elle est différente de l'entropie de Rényi, également notée $\mathrm {H} _{2}(X)$ , et ne doit pas être confondue avec celle-ci.

Explication

modifier

En termes de théorie de l'information, l'entropie est considérée comme une mesure de l'incertitude d'un message. Pour l'exprimer intuitivement, on suppose dans un premier temps $p=0$ . À cette probabilité, l'événement est certain de ne jamais se produire, et il n'y a donc aucune incertitude, ce qui conduit à une entropie nulle. Pour $p=1$ , le résultat est à nouveau certain, donc l'entropie est également nulle ici. Pour $p=1/2$ l'incertitude est alors maximale ; si l'on devait parier équitablement sur le résultat dans ce cas, la connaissance préalable des probabilités ne présenterait aucun avantage. Dans ce cas, l'entropie est maximale pour une valeur de 1 bit. Les valeurs intermédiaires se situent entre ces deux cas ; par exemple, dans le cas où $p=1/4$ , il subsiste toujours une certaine incertitude quant au résultat, mais on peut tout de même prédire correctement le résultat la plupart du temps, de sorte que la mesure d'incertitude, ou entropie, est inférieure à 1 bit.

Propriétés

modifier

Dérivée

modifier

La dérivée de la fonction d'entropie binaire peut être exprimée comme l'opposé de la fonction logit :

{\frac {\mathrm {d} }{\mathrm {d} p}}\operatorname {H} _{\text{b}}(p)=-\operatorname {logit} _{a}(p)=-\log _{a}\left({\frac {p}{1-p}}\right)

.

{\frac {\mathrm {d} ^{2}}{\mathrm {d} p^{2}}}\operatorname {H} _{\text{b}}(p)=-{\frac {1}{p(1-p)\ln a}}\,,

où a désigne la base donnée du logarithme.

Conjugué convexe

modifier

Le conjugué convexe (plus précisément, la transformée de Legendre) de l'entropie binaire (de base $e$ ) est la fonction softplus négative. En effet (d'après la définition de la transformée de Legendre : les dérivées sont des fonctions inverses), la dérivée de l'entropie binaire négative est le logit, dont la fonction inverse est la fonction logistique, qui est la dérivée de softplus.

La fonction softplus peut être interprété comme une perte logistique ; par dualité, minimiser la perte logistique revient donc à maximiser l’entropie. Ceci justifie le principe d’entropie maximale comme minimisation de la perte.

Série de Taylor

modifier

Le développement en série de Taylor de la fonction d'entropie binaire en 1/2 est

\operatorname {H} _{\text{b}}(p)=1-{\frac {1}{2\ln 2}}\sum _{n=1}^{\infty }{\frac {(1-2p)^{2n}}{n(2n-1)}}

qui converge vers la fonction d'entropie binaire pour toutes les valeurs $0\leq p\leq 1$ .

Bornes

modifier

Les majorations suivantes s'appliquent à $0<p<1$ ^[1]:

\ln(2)\cdot \log _{2}(p)\cdot \log _{2}(1-p)\leq \mathrm {H} _{\text{b}}(p)\leq \log _{2}(p)\cdot \log _{2}(1-p)

et

4p(1-p)\leq \mathrm {H} _{\text{b}}(p)\leq (4p(1-p))^{(1/\ln 4)}

où $ln$ désigne le logarithme naturel.

Voir aussi

modifier

Références

modifier

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Binary entropy function » (voir la liste des auteurs).

↑ « Bounds for entropy and divergence for distributions over a two-element set. », JIPAM. Journal of Inequalities in Pure & Applied Mathematics, vol. 2, n^o 2,‎ 2001, Paper No. 25, 13 p.-Paper No. 25, 13 p (lire en ligne)

Bibliographie

modifier

(en) David J. C. MacKay, Information Theory, Inference, and Learning Algorithms, Cambridge, Cambridge University Press, 2003 (ISBN 0-521-64298-1, lire en ligne)

Portail de l'analyse

[1] « Bounds for entropy and divergence for distributions over a two-element set. », JIPAM. Journal of Inequalities in Pure & Applied Mathematics, vol. 2, n^o 2,‎ 2001, Paper No. 25, 13 p.-Paper No. 25, 13 p (lire en ligne)

[1]

Fonction d'entropie binaire 📖 Wikipedia

Sommaire

Notation

Explication

Propriétés

Dérivée

Conjugué convexe

Série de Taylor

Bornes

Voir aussi

Références

Bibliographie

📚 Artikel Terkait di Wikipedia

Test du canard

Complexité d'un mot