Дивергенция Йенсена — Шеннона[1] — это метод измерения похожести двух распределений вероятностей. Она известна также как информационный радиус[2] или полное отклонение от среднего[3]. Дивергенция базируется на дивергенции Кульбака — Лейблера с некоторыми существенными (и полезными) отличиями, среди которых, что она симметрична и всегда имеет конечное значение. Квадратный корень из дивергенции Йенсена — Шеннона является метрикой, которая часто упоминается как расстояние Йенсена — Шеннона[4][5][6].

Определение

править

Рассмотрим множество распределений вероятности, где A — это множество, снабжённое некоторой сигма-алгеброй измеримых подмножеств. В частности, мы можем взять в качестве A конечное или счётное множество, в котором все подмножества измеримы.

Дивергенция Йенсена — Шеннона (англ. Jensen–Shannon divergence, JSD)  — это симметризованная и сглаженная версия дивергенции Кульбака — Лейблера . Она определяется как

,

где

Недавно было предложено обобщение дивергенции Йенсена — Шеннона, в котором вместо арифметического среднего используется абстрактное среднее (наподобие геометрического или гармонического среднего)[7]. Геометрическая дивергенция Йенсена — Шеннона (англ. G-Jensen–Shannon divergence) даёт явную a формулу дивергенции между двумя гауссовыми распределениями путём применения геометрического среднего.

Более общее определение, позволяющее сравнить более двух распределений вероятности (См):

,

где являются весами, выбранными для распределений вероятности , а является энтропией Шеннона для распределения . Для случая двух распределений

Границы

править

Дивергенция Йенсена — Шеннона ограничена 1 для двух распределений вероятности, если (в дивергенции Кульбака — Лейблера) используется логарифм по основанию 2[8]

С такой нормализацией дивергенция Йенсена — Шеннона является нижней границей полного расстояния вариации[англ.] между P и Q:

Для натурального логарифма, который обычно используется в статистической термодинамике, верхняя граница равна ln(2):

Дивергенция Йенсена — Шеннона ограничена величиной для более двух распределений вероятности, если используется логарифм по основанию 2[8]

Связь со взаимной информацией

править

Дивергенция Йенсена — Шеннона является взаимной информацией между случайной переменной , ассоциированной со смесью распределений[англ.] между и и двоичной индикаторной переменной , которая используется для переключения между и для получения смеси. Пусть будет некоторой функцией на множестве событий, которая хорошо различает события, и выберем значение согласно , если , и согласно , если , где равновероятно. То есть мы выбираем согласно мере , и его распределение является смесью распределений. Мы вычисляем

Из результатов выше следует, что дивергенция Йенсена — Шеннона ограничена 0 и 1, поскольку взаимная информация неотрицательна и ограничена величиной . Дивергенция Йенсена — Шеннона не всегда ограничена 0 и 1 — здесь верхняя граница 1 возникает из-за того, что мы рассматриваем конкретный случай двоичной переменной .

Можно применить тот же принцип для совместного распределения и произведения этих двух крайних распределений (по аналогии с дивергенцией Кульбака — Лейблера и взаимной информацией) и измерить, насколько достоверно можно решить, что результат получен от совместного распределения или от произведения распределений при предположении, что имеются только эти две возможности[9].

Квантовая дивергенция Йенсена — Шеннона

править

Обобщение распределений вероятности на матрицы плотности позволяет определить квантовую дивергенцию Йенсена — Шеннона (англ. quantum Jensen–Shannon divergence, QJSD)[10][11]. Она определяется для множества матриц плотности и распределений вероятности как

где является энтропией фон Неймана[англ.] плотности . Эта величина вводится в теории квантовой информации, где называется информацией Холево — она даёт верхнюю границу для количества классической информации, закодированной квантовыми состояниями при априорных распределениях (см. статью «Теорема Холево»)[12]. Квантовая Дивергенция Йенсена — Шеннона для и двух матриц плотности является ограниченной всюду заданной симметричной функцией и равна нулю, только если две матрицы плотности совпадают. Она равна квадрату метрики чистых состояний[13] и недавно было показано, что это метрическое свойство выполняется и для смешанных состояний[14][15]. Метрика Бюреса[англ.] тесно связана с квантовой дивергенцией Йенсена — Шеннона и является квантовым аналогом информационной метрики Фишера.

Обобщение

править

Нильсен ввёл косую K-дивергенцию[16]: Отсюда получаем однопараметрическое семейство дивергенций Йенсена — Шеннона, называемое -дивергенциями Йенсена — Шеннона:

которое включает дивергенцию Йенсена — Шеннона (для ) и половину дивергенции Джеффриса (для ).

Приложения

править

Дивергенция Йенсена — Шеннона применяется в биоинформатике и сравнении геномов[англ.][17][18], при сравнении поверхностей белков[19], в общественных науках[20], при количественных исследованиях в истории[21], экспериментах с огнём[22] и машинном обучении [23].

Примечания

править
  1. В русскоязычной литературе чаще встречается неверное название «Дивергенция Дженсена — Шеннона»
  2. Schütze, Manning, 1999, с. 304.
  3. Dagan, Lee, Pereira, 1997, с. 56–63.
  4. Endres, Schindelin, 2003, с. 1858–1860.
  5. Ôsterreicher, Vajda, 2003, с. 639–653.
  6. Fuglede, Topsoe, 2004, с. 30.
  7. Nielsen, Frank (2019). On a generalization of the Jensen-Shannon divergence and the JS-symmetrization of distances relying on abstract means. arXiv:1904.04017 [cs.IT].
  8. 1 2 Lin, 1991, с. 145–151.
  9. Schneidman, Bialek, Berry, 2003.
  10. Majtey, Lamberti, Prato, 2005, с. 052310.
  11. Briët, Harremoës, 2009, с. 052311.
  12. Холево, 1973, с. 3–11.
  13. Braunstein, Caves, 1994, с. 3439–3443.
  14. Virosztek, Dániel (2019). The metric property of the quantum Jensen-Shannon divergence. arXiv:1910.10447.{{cite arXiv}}: Википедия:Обслуживание CS1 (пропущен class) (ссылка)
  15. Sra, Suvrit (2019). Metrics Induced by Quantum Jensen-Shannon-Renyí and Related Divergences. arXiv:1911.02643.{{cite arXiv}}: Википедия:Обслуживание CS1 (пропущен class) (ссылка)
  16. Nielsen, Frank (2010). A family of statistical symmetric divergences based on Jensen's inequality. arXiv:1009.4004 [cs.CV].
  17. Sims, Jun, Wu, Kim, 2009, с. 2677–82.
  18. Itzkovitz, Hodis, Segal, 2010, с. 1582–9.
  19. Ofran, Rost, 2003, с. 377–87.
  20. DeDeo, Hawkins, Klingenstein, Hitchcock, 2013, с. 2246–2276.
  21. Klingenstein, Hitchcock, DeDeo, 2014, с. 9419–9424.
  22. Mitroi-Symeonidis, Anghel, Minculete, 2020, с. 22.
  23. Goodfellow, Pouget-Abadie и др., 2014.

Литература

править

Литература для дальнейшего чтения

править
  • Frank Nielsen (2010). A family of statistical symmetric divergences based on Jensen's inequality. arXiv:1009.4004 [cs.CV].

Ссылки

править

📚 Artikel Terkait di Wikipedia

Доказательства эволюции

Press, p. 280—281.  (англ.) Brenner, S. On the impossibility of all overlapping triplet codes in information transfer from nucleic acid to proteins (недоступная

Список серий аниме Detective Conan (с 16 сезона)

забить свой коронный удар левой ногой…  743 "Двойная случайность" "Two Overlapping Accidents" «Gūzen wa ni Tabikasanaru» (偶然は二度重なる)  Филлер 21 июня, 2014