Rozkład Poissona
Funkcja masy prawdopodobieństwa
Ilustracja
Na osi poziomej jest k, czyli liczba wystąpień zdarzeń losowych. jest oczekiwaną liczbą wystąpień w zadanym przedziale czasu (lub w zadanym obszarze przestrzeni). Na osi pionowej jest prawdopodobieństwo P wystąpienia k zdarzeń przy danym . Funkcja prawdopodobieństwa jest zdefiniowana wyłącznie dla całkowitych wartości k; linie łączące służą jedynie jako pomoc wizualna.
Dystrybuanta
Ilustracja
Na osi poziomej jest k. Dystrybuanta jest nieciągła w punktach odpowiadających całkowitym wartościom k i stała (płaska) pomiędzy nimi, ponieważ zmienna losowa o rozkładzie Poissona przyjmuje wyłącznie wartości całkowite.
Parametry

Nośnik

Funkcja masy prawdopodobieństwa

Dystrybuanta

(gdzie to niekompletna funkcja gamma)

Wartość oczekiwana (średnia)

Mediana

Moda

i gdzie jest całkowite

Wariancja

Współczynnik skośności

Kurtoza nadwyżkowa (eksces)

Entropia


dla dużych

Funkcja tworząca momenty

Funkcja charakterystyczna

Odkrywca

Siméon Denis Poisson
(rozkład pierwszy raz pod tą nazwą wystąpił u H.E. Sopera)

Rozkład Poissona (czytaj [pwasɔna], także prawo Poissona małych liczb[1]) – dyskretny rozkład prawdopodobieństwa zmiennej losowej , która przyjmuje wartości nieujemne całkowite i opisuje liczbę zdarzeń zachodzących w ustalonym przedziale czasu lub określonym obszarze przestrzeni[2][3] . Rozkład Poissona jest scharakteryzowany przez jeden dodatni parametr , który określa wartość oczekiwaną (średnią liczbę zdarzeń) oraz wariancję w danym przedziale[2]. Model ten opiera się na tzw. postulatach Poissona, zgodnie z którymi liczba zdarzeń w rozłącznych podprzedziałach jest niezależna, a prawdopodobieństwo ich wystąpienia w małym podprzedziale jest proporcjonalne do jego długości[4].

Rozkład ten znajduje zastosowanie wszędzie tam, gdzie zlicza się wystąpienia zdarzeń w identycznych jednostkach czasu , powierzchni () lub objętości (), przy zachowaniu założeń o niezależności i stałej intensywności[4]. Stosuje się go w szczególności do opisu zdarzeń rzadkich, wykazujących charakterystyczne fluktuacje, których klasycznym przykładem jest rozpad promieniotwórczy jąder atomowych.

Rozkład Poissona można otrzymać jako graniczny przypadek rozkładu dwumianowego przy dużej liczbie prób i małym prawdopodobieństwie sukcesu.

Wraz ze wzrostem parametru (duża liczba zliczeń), rozkład Poissona wykazuje tendencję do symetrii i staje się zbieżny z rozkładem normalnym.

Rozkład ten został wprowadzony przez Siméona-Denisa Poissona (1781–1840) wraz z jego teorią prawdopodobieństwa w 1838 roku i opublikowany w 1838 roku w pracy Recherches sur la probabilité des jugements en matière criminelle et en matière civile („Badania nad prawdopodobieństwem orzeczeń sądowych w sprawach cywilnych i karnych”)[5]. W pracy tej analizowano m.in. zmienne losowe opisujące liczbę dyskretnych zdarzeń zachodzących w przedziale czasu o ustalonej długości.

Funkcja masy prawdopodobieństwa

edytuj

Funkcja masy prawdopodobieństwa rozkładu Poissona ma postać[6]:

gdzie:

  • wartość oczekiwana, średnia liczba zdarzeń w danym przedziale czasu lub przestrzeni (liczba rzeczywista dodatnia),
  • – liczba zdarzeń w tym przedziale;
  • silnia liczby
  • podstawa logarytmu naturalnego

Oznaczenia

edytuj

Jeżeli zmienna losowa ma rozkład Poissona z parametrem , można zastosować zapis symboliczny[7]:

Testowanie zgodności z rozkładem Poissona

edytuj

Testowanie zgodności z rozkładem Poissona służy zweryfikowaniu hipotezy zerowej zakładającej, że obserwowane dane (zliczenia zdarzeń) pochodzą z populacji o takim właśnie rozkładzie. Najpowszechniej stosowany test chi-kwadrat polega na porównaniu liczebności zaobserwowanych z liczebnościami oczekiwanymi , wyznaczonymi teoretycznie dla każdej kategorii zliczeń. W przypadku rozkładu Poissona wartości teoretyczne oblicza się mnożąc sumaryczną liczbę obserwowanych zdarzeń przez prawdopodobieństwa rozkładu Poissona.

Klasyczny przykład pomiaru rozkładu Poissona związanego z procesami losowymi zachodzącymi w czasie pokazano poniżej dla zjawiska emisji cząstek . Przykład rozkładu Poissona dla zjawisk o rozkładzie losowym na małych fragmentach powierzchni, na jakie podzielono obserwowanej zawiesiny komórek drożdży omawia tekst test chi-kwadrat-Przykład 4.

Można również wykorzystać statystykę opartą na indeksie dyspersji, która weryfikuje charakterystyczną dla tego modelu równość średniej i wariancji[8].

Przykład: Pomiar rozkładu prawdopodobieństwa emisji cząstek

edytuj
Dźwięki licznika Geigera, rejestrującego kolejne cząstki , wskazują na losowość ich emisji
Analogowy licznik Geigera (2005)

Jeżeli substancja promieniotwórcza emituje cząstki , to liczba cząstek wpadających do licznika Geigera w ustalonym, krótkim przedziale czasu jest losowa i może przybierać różne wartości w kolejnych pomiarach. Jednak powtarzając pomiary okaże się, że częstości zdarzenia polegającego na wpadnięciu k cząstek do licznika w przedziale czasu stabilizują się[9].

Ernest Rutherford oraz Hans Geiger w 1910 roku wykonali doświadczenie, w którym rejestrowali liczbę cząstek emitowanych przez substancję promieniotwórczą. Wyniki tego eksperymentu posłużyły za empiryczny dowód na to, że rozpad jądrowy podlega prawom rozkładu Poissona. Badacze rejestrowali liczbę cząstek w przedziałach czasowych, z których każdy trwał dokładnie sekundy. Całkowity czas pomiaru wynosił więc godziny. Poniższa tabela zestawia liczby rejestrowanych cząstek , odpowiadającą im obserwowaną częstość ich wystąpienia oraz teoretyczną częstość wystąpienia , wynikającą z dopasowania matematycznego do rozkładu Poissona[3]:

Wartości można obliczyć dopiero po obliczeniu parametru , co pokazano dalej.

Tabela: Częstości obserwowania cząstek w okresach 7,5 sekundy. – częstości oczekiwane wg rozkładu Poissona
0 1 2 3 4 5 6 7 8 9 10
57 203 383 525 532 408 273 139 45 27 16
54,6 211 408 526 508 393 253 140 67,7 29,1 17

Estymacja parametru rozkładu

edytuj

Do opisu zjawiska stosuje się rozkład Poissona. Estymatorem parametru , reprezentującego średnią liczbę cząstek przypadających na jeden przedział czasu, jest średnia ważona z próby empirycznej:

Na podstawie tabeli obliczamy . Stąd:

Funkcja masy prawdopodobieństwa dla dopasowanego modelu przyjmuje postać:

Prawdopodobieństwo zdarzenia skumulowanego

edytuj

W celu określenia prawdopodobieństwa zaobserwowania maksymalnie 5 cząstek w przedziale czasowym, należy obliczyć prawdopodobieństwo skumulowane dla :

Po zsumowaniu teoretyczne prawdopodobieństwo wynosi:

Oznacza to, że w około badanych przedziałach czasowych sekundy aparatura pomiarowa zarejestruje 5 lub mniej cząstek .

Test zgodności Pearsona

edytuj

Test zgodności Pearsona wykonujemy dla hipotezy, że dane pomiarowe mają rozkład Poissona. Statystyka testowa ma postać:

Częstości teoretyczne dla modelu Poissona obliczono ze wzoru[3].

używając estymowanej wartość średniej . Np.

Wszystkie wartości zestawiono w tabeli powyżej. Po podstawieniu danych z tabeli otrzymamy:

i ostatecznie

Liczba stopni swobody: ( — liczba klas, — warunek normalizacji, — liczba estymowanych parametrów rozkładu Poissona). Dla poziomu istotności wartość krytyczna wynosi .

Wniosek: Ponieważ , więc nie ma podstaw do odrzucenia hipotezy zerowej. Dane są zgodne z rozkładem Poissona na poziomie istotności .

Stała rozpadu promieniotwórczego a stała rozkładu Poissona. Wnioski dotyczące zjawisk losowych

edytuj

Parametru rozkładu Poissona nie należy utożsamiać z stałą rozpadu promieniotwórczego. Choć obie wielkości często oznacza się tym samym symbolem, to jednak stała rozpadu oznacza prawdopodobieństwo rozpadu pojedynczego jadra atomu w czasie 1 sekundy; ma więc wymiar 1/sekunda. Stała w rozkładzie Poissona jest zaś bezwymiarowa i określa średnią liczbę cząstek rejestrowanych w przyjętym oknie czasowym i jest tym większa, im więcej jąder promieniotwórczych ma badana próbka oraz zależy od geometrii detektora (która określa, jaka część emitowanych przez substancję cząstek wpada przez okno pomiarowe detektora) i jego wydajności (określa, jaką część z cząstek wchodzących do detektora jest on w stanie zarejestrować), tj.

Oznaczając średnią liczbę cząstek rejestrowanych przez detektor w czasie jednej sekundzie otrzymamy

Prawdopodobieństwo rejestracji cząstek w czasie można więc wyrazić za pomocą średniej intensywności wzorem[10]

Dla małych mamy . Stosując to przybliżenie do wzoru na dla odpowiednio małych wartości otrzymuje się

a) Brak rozpadu ()
b) Jeden rozpad ()
(bo iloczyn jest pomijalnie mały.
c) Dwa i więcej rozpadów ()

Interpretacja fizyczna

edytuj

W bardzo krótkim czasie :

  • albo nic się nie dzieje,
  • albo zachodzi pojedynczy rozpad,
  • zdarzenia wielokrotne są praktycznie niemożliwe.

To prowadzi do liniowej zależności:

i stanowi fundament przejścia do prawa rozpadu.

Założenia teoretyczne

edytuj
Chewing gum on a sidewalk in Reykjavík.
Guma do żucia na chodniku. Liczba kawałków na pojedynczych płytach chodnikowych ma w przybliżeniu rozkład Poissona.

Jeśli więc obserwuje się w eksperymentach zjawiska losowe zgodne z rozkładem Poissona, to muszą one wynikać z wyżej sformułowanych prawidłowości, tj.[3]:

  1. Liczba zdarzeń losowych występujących w rozłącznych przedziałach czasu jest od siebie niezależna.
  2. Prawdopodobieństwo wystąpienia dokładnie jednego zdarzenia w bardzo małym przedziale jest równe , gdzie reprezentuje średnią intensywność (liczbę zdarzeń na jednostkę).
  3. Jest niemal niemożliwe (prawdopodobieństwo jest pomijalnie małe), aby dwa lub więcej zdarzeń wystąpiło w wystarczająco małym przedziale czasu.
  4. Prawdopodobieństwo zaobserwowania określonej liczby zdarzeń w przedziale zależy wyłącznie od długości tego przedziału, a nie od momentu lub miejsca, w którym się on rozpoczyna.

Przykłady innych zjawisk modelowanych rozkładem Poissona

edytuj

Przykłady procesów losowych, które mogą być modelowane rozkładem Poissona:

  • Liczba żołnierzy zabitych każdego roku przez kopnięcie konia w pruskich korpusach kawalerii. Przykład ten zyskał sławę dzięki publikacji Władysława Józefowicza Bortkiewicza z 1898[11].
  • Liczba połączeń telefonicznych przychodzących do centrali w ciągu minuty[12][13].
  • Liczba wypadków samochodowych dziennie na konkretnym odcinku drogi.
  • Liczba błędów typograficznych na stronie książki[3].
  • Liczba mutacji w danym odcinku DNA po ekspozycji na pewną dawkę promieniowania[14].
  • Liczba cząstek wirusa lub bakterii, które trafiają do pojedynczej komórki[15].

Własności

edytuj

Tw. 1 Rozkład prawdopodobieństwa jest unormowany do 1.

Dowód (unormowanie do 1)

, cnd.

W przedostatnim kroku skorzystano z rozwinięcia funkcji wykładniczej w szereg potęgowy, tj. .

Tw. 2 Wartość oczekiwana zmiennej losowej o rozkładzie Poissona[16]

Dowód

Tw. 3 Wariancja zmiennej losowej o rozkładzie Poissona[17]

Dowód

Wariancję wyznaczamy ze wzoru:

Obliczamy brakującą do końcowego wyniku sumę:

W konsekwencji:

, cnd.

Tw. 4 Wyższe momenty rozkładu Poissona są wielomianami Toucharda z parametrem których współczynniki mają kombinatoryczne znaczenie.

Tw. 5 Gdy wartość oczekiwana rozkładu Poissona jest równa 1, to wzór Dobińskiego mówi, że -ty moment jest równy liczbie podziałów zbioru -elementowego.

Tw. 6 Dominanta:

  • gdy jest liczbą całkowitą, to dominanta ma wartości równe i ;
  • gdy nie jest liczbą całkowitą, to dominanta jest równa , czyli jest największą liczbą całkowitą mniejszą lub równą (jest to tzw. funkcja podłoga).

Tw. 7 Rozkład sumy zmiennych losowych o rozkładach Poissona:

Jeśli niezależne zmienne losowe , mają rozkład Poissona z parametrami , to suma tych zmiennych losowych również ma rozkład Poissona, którego parametr jest sumą parametrów składowych, tj. [18]
oraz
Dowód

1. Dla dwóch zmiennych losowych mamy

przy czym w przedostatniej linii dowodu wykorzystano wzór dwumianowy .

Zatem , cnd.

2. Dla większej liczby zmiennych losowych dowodzimy tego twierdzenia posługując się metodą dowodzenia przez indukcję.


Tw. 8 (odwrotne do podanego powyżej):

Jeśli suma dwóch niezależnych zmiennych losowych ma rozkład Poissona, to ma go również każda z tych dwóch niezależnych zmiennych losowych[19].

Tw. 9 Jeśli są obserwacjami z niezależnych rozkładów Poissona ze średnimi , przy czym są umiarkowanej wielkości (zalecane jest ) to suma znormalizowanych odchyleń kwadratowych tych zmiennych losowych ma w przybliżeniu rozkład chi kwadrat[20], tj.

Tw. 10 Funkcja generująca momenty rozkładu Poissona z wartością oczekiwaną ma postać

Tw. 11 Wszystkie kumulanty rozkładu Poissona są równe

Tw. 12 -ty moment silni rozkładu Poissona jest równy

Tw. 13 Rozkład Poissona jest nieskończenie podzielnym rozkładem prawdopodobieństwa.

Tw. 14 Bezpośrednia dywergencja Kullbacka-Leiblera pomiędzy i jest dana przez

Powiązania z innymi rozkładami

edytuj
  • Jeśli dwie zmienne i są niezależne, a to rozkład pod warunkiem jest dwumianowy, tj[3].
  • Ogólnie: Jeśli są niezależnymi zmiennymi losowymi Poissona z parametrami to
  • Jeśli niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z parametrem , to warunkowy rozkład wektora zmiennych pod warunkiem jest rozkładem wielomianowym z liczbą prób równą i prawdopodobieństwami poszczególnych kategorii równymi [3].
  • Jeśli i to różnica ma rozkład Skellama[21].
  • Rozkład Poissona może zostać wyprowadzony jako graniczna postać rozkładu dwumianowego w specyficznych warunkach, gdy liczba prób dąży do nieskończoności (), a prawdopodobieństwo sukcesu dąży do zera (). Kluczowym założeniem tego przejścia granicznego jest to, aby wartość oczekiwana liczby sukcesów pozostawała stała (zob. Prawo rzadkich zdarzeń). Rozkład Poissona może być zatem stosowany jako użyteczne przybliżenie rozkładu dwumianowego, gdy liczba  jest wystarczająco duża, a prawdopodobieństwo jest dostatecznie małe. Wskazuje się, że przybliżenie to można bezpiecznie stosować dla populacji liczących około 5000 lub więcej jednostek[3]. Inni autorzy wskazują, że rozkład Poissona jest dobrym przybliżeniem rozkładu dwumianowego, jeśli i , zaś bardzo dobrym, jeśli i [22].
  • Rozkład Poissona można przybliżać, wykorzystując rozkład normalny ze średnią i wariancją . Przybliżenie jest użyteczne dla dużych wartości ze względu na fakt, że skośność rozkładu Poissona maleje ze wzrostem (wynosząca ​), a kształt wykresu rozkładu staje się coraz bardziej symetryczny i dzwonowaty[3]. Wykorzystywanie poprawki na ciągłość zwiększa dokładność tego przybliżenia. Polega ona na dodaniu lub odjęciu wartości 0,5 od liczby całkowitej k przed dokonaniem standaryzacji. Na przykład jeżeli , to
,
gdzie jest dystrybuantą standardowego rozkładu normalnego[23].
  • Transformacja stabilizująca wariancję: gdy zmienna ma rozkład Poissona, jej pierwiastek kwadratowy ma w przybliżeniu rozkład normalny z wartością oczekiwaną około i wariancją około 1/4[24]. W ramach tej transformacji, zbieżność do normalności jest znacznie szybsza niż zmiennej przed transformacją. Są dostępne inne, nieco bardziej skomplikowane transformacje stabilizujące wariancję[25], np. transformację Anscombe'a(inne języki).
  • Jeśli rozkład liczby zdarzeń losowych zachodzących w danym przedziale czasu jest zgodny z rozkładem Poissona o średniej średnią wtedy długość czasu oczekiwania na zajście kolejnego zdarzenia ma rozkład wykładniczy ze średnią

Prawo rzadkich zdarzeń

edytuj
Porównanie rozkładu Poissona z (czarne słupki) i rozkładów dwumianowych dla parametrów , (czerwone kółka), , (niebieskie kółka), , (zielone kółka). Wszystkie rozkłady mają wartość oczekiwaną równą 5. Na osi poziomej oznaczono liczbę zdarzeń do wartości 10 (należy jednak pamiętać, że dla prawdopodobieństwa nie są zerowe). Warto zauważyć, że wraz ze wzrostem rozkład Poissona staje się coraz lepszym przybliżeniem rozkładu dwumianowego o tej samej wartości oczekiwanej.

Prawo rzadkich zdarzeń (znane również jako prawo małych liczb) to termin statystyczny odnoszony do rozkładu Poissona postrzeganego jako graniczna postać rozkładu dwumianowego. Nazwa ta odzwierciedla fakt, że rozkład ten modeluje zjawiska, w których prawdopodobieństwo wystąpienia pojedynczego zdarzenia jest niskie, ale liczba prób lub wielkość populacji jest duża[26].

Prawo rzadkich zdarzeń opiera się na przejściu granicznym wyprowadzonym przez Siméona Denisa Poissona w 1837 roku. Wykazał on, że rozkład dwumianowy dąży do rozkładu Poissona, gdy liczba prób dąży do nieskończoności, a prawdopodobieństwo sukcesu dąży do zera w taki sposób, aby ich iloczyn pozostawał stały. Parametr reprezentuje średnią liczbę wystąpień zdarzenia w danym przedziale czasu lub przestrzeni[26].

Termin „prawo małych liczb” został spopularyzowany przez Władysława Bortkiewicza w jego pracy Das Gesetz der kleinen Zahlen (Prawo małych liczb) z 1898 roku. Bortkiewicz był pierwszym statystykiem, który zauważył, że zdarzenia o niskiej częstotliwości w dużych populacjach wykazują zaskakującą stabilność statystyczną i podlegają rozkładowi Poissona, nawet jeśli prawdopodobieństwo sukcesu różni się nieco w poszczególnych podgrupach[27]. Ze względu na kluczowy wkład Bortkiewicza w popularyzację tego modelu, który przez 60 lat od publikacji pracy Poissona pozostawał niemal zapomniany, niektórzy historycy nauki twierdzą, że rozkład ten powinien być nazywany rozkładem Bortkiewicza[28].

Choć Bortkiewicz był pierwszym, który na dużą skalę udowodnił praktyczną użyteczność rozkładu Poissona (klasycznie zilustrowaną badaniem liczby zgonów pruskich żołnierzy wskutek kopnięcia przez konia), sama nazwa „prawo małych liczb” uznawana jest za niefortunną. Krytycy wskazywali, że sugeruje ona nieistniejący kontrast z prawem wielkich liczb; wskazywano, że merytorycznie lepiej byłoby mówić o „prawie rzadkich zdarzeń”[27].

Nazwa „prawo rzadkich zdarzeń” również może być myląca: zdarzenia są rzadkie z punktu widzenia prawdopodobieństwa jednostkowego, lecz całkowita liczba zajść wcale nie musi być mała, jeśli parametr intensywności λ jest wysoki[26].

Tw. (o zbieżności rozkładu dwumianowego do rozkładu Poissona)[29]

Niech dany będzie ciąg zmiennych losowych o rozkładzie dwumianowym z prawdopodobieństwem sukcesu równym oraz zmienna losowa o rozkładzie Poissona z parametrem , tj.

Wtedy ciąg dla liczby prób dążących do nieskończoności zmierza do rozkładu Poissona , tj.

Dowód

Dla każdej zmiennej losowej o rozkładzie dwumianowym o dużym i małym ustalmy Wartość oczekiwania nie zależy od Korzystając z zależności

oraz podstawiając otrzymamy

Obliczenie granicy czynników przeprowadza się dokonując rozkładu na poszczególne czynniki i licząc granicę każdego z nich oddzielanie (można to zrobić, ponieważ liczba członów zależnych od jest stała, tj. jest ich , a każdy z członów jest ciągiem zbieżnym; korzystamy tu z twierdzenia, że iloczyn ciągów zbieżnych ma granicę równą iloczynowi granic każdego z członów tego iloczynu

Ostatecznie otrzymamy:

cnd.

Uogólnienie

edytuj

Wykazaliśmy, że jeżeli

gdzie a następnie w rozkładzie. Odnosi się to w bardziej ogólnej sytuacji, że jest dowolny ciąg taki, że

Szum Poissona i jego zastosowania

edytuj

Parametr jest średnią liczbą wystąpień zdarzeń losowych i jednocześnie ich wariancją, tj. . W konsekwencji liczba zaobserwowanych zdarzeń losowych oscyluje wokół średniej z odchyleniem standardowym wynoszącym W literaturze statystycznej zjawisko to, polegające na ścisłej zależności wariancji od średniej, określane jest mianem „dyspersji normalnej”[27]. Wahania te są nazywane szumem Poissona, szumem śrutowym lub szumem fotonowym[30].

Ścisły związek między średnią a odchyleniem standardowym przy zliczaniu niezależnych zdarzeń dyskretnych jest niezwykle użyteczny w badaniach i pomiarach naukowych Dzięki monitorowaniu, jak zaobserwowane wahania różnią się od średniej sygnału, można ocenić, czy dany proces jest „doskonale losowy”. Jeśli wariancja jest znacznie większa od średniej, sugeruje to, że zdarzenia nie są niezależne, lecz wykazują tendencję do skupiania się (tzw. clumping), co podważa model Poissona[31]. Relacja pomiędzy wahaniami a średnią sygnału pozwala również na wyciąganie wniosków o naturze zjawisk, w tym wkładzie pojedynczego zdarzenia, nawet jeśli ten wkład jest zbyt mały do wykrycia bezpośrednio, np.

(a) Ładunek e elektronu może być określony poprzez powiązanie wielkości prądu elektrycznego z jego szumem śrutowym. Jeżeli przez punkt przechodzi w czasie średnio elektronów, średni prąd jest równy ponieważ wahania prądu powinny być rzędu (tj. standardowe odchylenie procesu Poissona), ładunek może być oszacowany ze współczynnika

(b) Ziarnistość, która pojawia się przy powiększeniach fotografii, powstaje w związku z wahaniami Poissona w ograniczonej liczbie ziaren srebra (a nie w związku z pojedynczymi ziarnami). Korelując ziarnistość ze stopniem powiększenia, można oszacować udział indywidualnych ziaren (które są zbyt małe, aby je inaczej postrzegać samodzielnie).

(c) Molekularny szum Poissona pozwala szacować gęstość liczby cząsteczek receptora w błonie komórkowej

Estymacja parametru rozkładu Poissona. Przedziały ufności

edytuj

Metoda największej wiarygodności

edytuj

Niech będzie próbką obserwacji pochodzących z rozkładu Poissona z nieznanym parametrem . Celem jest wyznaczenie estymatora największej wiarygodności (MLE) parametru . Funkcja wiarygodności ma postać:

Aby uprościć proces optymalizacji, stosuje się funkcję log-wiarygodności, która jest logarytmem naturalnym funkcji wiarygodności (logarytm naturalny jest funkcją ściśle rosnącą; logarytm funkcji posiada ekstremum w tym samym punkcie co funkcja pierwotna):

Maksimum wyznacza się, obliczając pierwszą pochodną względem i przyrównując ją do zera:

Rozwiązanie tego równania daje estymator największej wiarygodności (MLE), którym jest średnia z próby:

Weryfikacja warunku na pochodną drugiego rzędu potwierdza, że znaleziony punkt stacjonarny jest maksimum globalnym, ponieważ druga pochodna funkcji log-wiarygodności jest zawsze ujemna dla nieujemnych wartości (przy założeniu )

Wariancja estymatora wynosi . Osiąga ona dolną granicę nierówności Rao-Craméra, co czyni estymatorem nieobciążonym o minimalnej wariancji (ang. MVUE). Wartość oczekiwana estymatora jest równa parametrowi , więc średnia z próby jest nieobciążonym estymatorem parametru o minimalnej wariancji.

Rozkład Poissona należy do rodziny rozkładów wykładniczych. Z tego faktu wynika, że średnia z próby jest statystyką dostateczną (tj. zawiera wszystkie informacje o parametrze dostępne w próbie) oraz statystyką zupełną.

Dla dużych prób rozkład estymatora dąży do rozkładu normalnego o średniej i wariancji (por. centralne twierdzenia graniczne). Własność ta pozwala na konstruowanie przybliżonych przedziałów ufności[4].

Statystyka bayesowska

edytuj

W statystyce bayesowskiej, sprzężony rozkład a priori dla parametru skali rozkładu Poissona jest rozkładem gamma. Niech

oznacza, że ma rozkład zgodnie z gęstością Gamma parametryzowaną ze względu na parametr kształtu i odwrotny parametrem skali:

Następnie biorąc tę samą próbkę zmierzonych wartości jak poprzednio, i a priori Gamma rozkład a posteriori jest

Średnia a posteriori zbliża się do oszacowania maksymalnego prawdopodobieństwa w granicy, jako

Przewidujący rozkład a posteriori dodatkowych danych jest rozkładem Gamma-Poissona (tj. ujemnym dwumianowym).

Przedział ufności

edytuj

Przedział ufności dla (średniej rozkładu Poissona) można wyrazić za pomocą zależności między dystrybuantami rozkładu Poissona i rozkładu chi-kwadrat (oraz ściśle z nim powiązanego rozkładu gamma).

Jeżeli zaobserwowano zdarzeń w danym przedziale czasu i można założyć, że zostały one wygenerowane z rozkładu Poissona, zaś poziom ufności wynosi , to przedział ufności dla ma postać

lub, alternatywnie,

,

gdzie to funkcja kwantylowa (odwrotna dystrybuanta) rozkładu chi-kwadrat, rozkładu chi-kwadrat z prawdopodobieństwem wejściowym (lewostronnym) i stopniami swobody, a to funkcja kwantylowa rozkładu gamma o parametrach kształtu równym i skali równym 1.

Przedział ten jest „dokładny” w tym sensie, że jego rzeczywiste pokrycie nigdy nie jest mniejsze niż nominalne [32][33].

Zaproponowano również przybliżenie tego przedziału (oparte na transformacji Wilsona–Hilferty’ego), przydatne gdy kwantyle rozkładu gamma nie są dostępne[34]:

gdzie oznacza kwantyl standardowego rozkładu normalnego odpowiadający prawdopodobieństwu w górnym ogonie równemu .

Aby zastosować te wzory w praktyce (we wspomnianym wyżej kontekście próby obserwacji , z których każda pochodzi z rozkładu Poissona o średniej ), należy obliczyć łączną wartość :

,

a następnie wyznaczyć przedział dla i przekształcić go do przedziału dla .

Rozkład Poissona w językach programowania i arkuszach kalkulacyjnych

edytuj

Języki programowania

edytuj

Python (biblioteka scipy.stats)

  • funkcja masy prawdopodobieństwa: poisson.pmf(k, lambda) – zwraca prawdopodobieństwo dla ,
  • dystrybuanta: poisson.cdf(k, lambda) – zwraca prawdopodobieństwo ,
  • generowanie N_losowych wartości z rozkładu : poisson.rvs(lambda, size = N_losowych)

R

  • funkcja masy prawdopodobieństwa: dpois(k, lambda)
  • dystrybuanta: ppois(k, lambda)
  • generowanie N_losowych wartości: rpois(N_losowych, lambda)

Arkusze kalkulacyjne

edytuj

Arkusze Google

  • funkcja masy prawdopodobieństwa: POISSON.DIST(k; lambda; FALSE)
  • dystrybuanta: POISSON.DIST(k; lambda; TRUE)

Microsoft Excel

  • funkcja masy prawdopodobieństwa: ROZKŁ.POISSON(k; lambda; FAŁSZ)
  • dystrybuanta: ROZKŁ.POISSON(k; lambda; PRAWDA)

Implementacja rozkładu Poissona w Pythonie bez użycia bibliotek

edytuj

Poniższy program w języku Python oblicza wartości funkcji masy prawdopodobieństwa rozkładu Poissona dla zadanej wartości i wartości z zadanego zakresu. Kod nie korzysta z biblioteki scipy. Z tej racji może być łatwo uruchomiony w licznie dostępnych kompilatorach Pythona w Internecie.

import math
def poisson(lam, k):
    return math.exp(k * math.log(lam) - lam - math.lgamma(k + 1))

lam=5 # tu można zmieniać wartość parametru lambda
# nagłówek i tabela rozkładu Poissona
print(f"{'λ':>5} {'k':>5} {'P(λ, k)':>12}")
print("-" * 24)

for k in range(0, 15):# tu można zmienić zakres k - liczby 0 i 15
    print(f"{lam:>5} {k:>5} {poisson(lam, k):>12.3f}")

W obliczeniach stosuje się numerycznie stabilną postać: zamiast bezpośredniego wzoru który dla dużych lub może prowadzić do utraty precyzji.

Generowanie zmiennych losowych o rozkładzie Poissona

edytuj

Prosty sposób na generowanie losowych liczb o rozkładzie Poissona, jest podany przez Knutha, zobacz odniesienia poniżej.

algorytm poisson random number (Knuth):
 init:
  Let L ← e^-λ, k ← 0 i p ← 1.
 do:
  k ← k + 1.
  Wygeneruj losową liczbę u z przedziału [0,1] i przypisz p ← p × u.
 while p > L.
 return k – 1.

Podczas gdy jest prosty, złożoność jest liniowa względem Istnieje wiele innych algorytmów na przezwyciężenie tego. Niektóre z nich są podane w Ahrens & Dieter, patrz odniesienia poniżej. Ponadto dla dużych wartości mogą być problemy ze stabilnością numeryczną ze względu na człon Jednym z rozwiązań dla dużych wartości jest Pobieranie z odrzuceniem, innym jest wykorzystanie przybliżenia Poissona przez Gaussa.

Metoda odwrotnej transformacji jest prosta i skuteczna dla małych wartości i wymaga tylko jednej jednolitej losowej liczby na próbkę. Skumulowane prawdopodobieństwa badane są z kolei, aż jedno przekracza

2-wymiarowy rozkład Poissona

edytuj

gdzie:

– wielkość elementów powierzchni, na których zalicza się zdarzenia losowe,
– możliwe liczby zdarzeń losowych, zliczone na elemencie powierzchni
– średnia intensywność zdarzeń losowych na jednostkę powierzchni

Zobacz też

edytuj

Przypisy

edytuj
  1. Jan Gullberg: Mathematics from the birth of numbers. New York: W.W. Norton, 1997, s. 963–965. ISBN 0-393-04002-X.
  2. a b Poisson distribution, [w:] Brian Everitt, Anders Skrondal, The Cambridge dictionary of statistics, wyd. 4th ed, Cambridge, UK ; New York: Cambridge University Press, 2010, ISBN 978-0-521-76699-9.
  3. a b c d e f g h i Kalimuthu Krishnamoorthy, Handbook of statistical distributions with applications, Second edition, Boca Raton, Florida London New York: Chapman & Hall, CRC Press, imprint of Taylor & Francis Group, 2016, s. 89-93, ISBN 978-1-4987-4150-7.
  4. a b c George Casella, Roger W. Berger, Statistical inference, Second edition, CRC texts in statistical science series, Boca Raton: CRC Press, 2024, ISBN 978-1-032-59303-6.
  5. Siméon-Denis Poisson, Recherches sur la probabilité des jugements en matière criminelle et en matière civile: précédées des règles générales du calcul des probabilités, Bachelier, 1837, ISBN 978-0-608-35646-4 (fr.).
  6. Krysicki i inni 1998 ↓, s. 85.
  7. Ćwiczenia 4: Dyskretne zmienne losowe | Informatyka MIMUW [online], smurf.mimuw.edu.pl [dostęp 2026-03-10].
  8. Index of dispersion, [w:] Brian Everitt, Anders Skrondal, The Cambridge dictionary of statistics, wyd. 4th ed, Cambridge, UK ; New York: Cambridge University Press, 2010, ISBN 978-0-521-76699-9.
  9. Kubik i Krupowicz 1982 ↓, s. 15.
  10. McQuarrie 2006 ↓, s. 168.
  11. Ladislaus von Bortkiewicz, Das Gesetz der kleinen Zahlen, Leipzig : B.G. Teubner, 1898 [dostęp 2026-03-10].
  12. George Rasch, The Poisson process as a model for a diversity of behavioral phenomena: (685262012-108), 1963, DOI10.1037/e685262012-108 [dostęp 2026-03-10] (ang.).
  13. A.K. Erlang, Sandsynlighedsregning og Telefonsamtaler, „Nyt tidsskrift for matematik”, 20, 1909, s. 33–39, ISSN 0909-3524, JSTOR24528622 [dostęp 2026-03-10].
  14. Edith A Leonhardt, Maxine Trinh, Kenneth Chu, William C Dewey, Evidence that most radiation-induced HPRT mutants are generated directly by the initial radiation exposure, „Mutation Research - Fundamental and Molecular Mechanisms of Mutagenesis”, 426 (1), 1999, s. 23–30, DOI10.1016/S0027-5107(99)00080-9, ISSN 1386-1964 [dostęp 2026-03-10].
  15. Emory L. Ellis, Max Delbrück, The Growth of Bacteriophage, „Journal of General Physiology”, 22 (3), 1939, s. 365–384, DOI10.1085/jgp.22.3.365, ISSN 1540-7748 [dostęp 2026-03-10] (ang.).
  16. Kubik i Krupowicz 1982 ↓, s. 45.
  17. Kubik i Krupowicz 1982 ↓, s. 47-48.
  18. Kubik i Krupowicz 1982 ↓, s. 146.
  19. Д. А. Райков, “О разложении законов Гаусса и Пуассона”, Изв. АН СССР. Сер. матем., 2:1 (1938), 91–124 [online], www.mathnet.ru [dostęp 2026-03-11].
  20. Box, Hunter and Hunter: Statistics for experimenters. Wiley, s. 57.
  21. J.G. Skellam, The Frequency Distribution of the Difference Between Two Poisson Variates Belonging to Different Populations, „Journal of the Royal Statistical Society”, 109 (3), 1946, s. 296–296, DOI10.2307/2981372, ISSN 0952-8385, JSTOR2981372 [dostęp 2026-03-10].
  22. NIST/SEMATECH, '6.3.3.1. Counts Control Charts', e-Handbook of Statistical Methods, accessed 25 October 2006.
  23. Norman Lloyd Johnson, Statistical distributions. Approximations to distributions, [w:] William Kruskal, Judith M. Tanur (red.), International encyclopedia of statistics, New York: Free Press, 1978, s. 172, ISBN 978-0-02-917960-4 [dostęp 2026-03-12] (ang.).
  24. P. McCullagh, John A. Nelder, Generalized linear models, wyd. 2nd ed, Monographs on statistics and applied probability, London ; New York: Chapman and Hall, 1989 (37), s. 196, ISBN 978-0-412-31760-6 (ang.).
  25. N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete distributions (2nd edition), Wiley, 1993, ISBN 0-471-54897-9, s. 163.
  26. a b c R. Feron, Poisson, Simeon Denis, [w:] William H. Kruskal (red.), International encyclopedia of statistics, London: Collier Macmillan, 1978, s. 704–706, ISBN 978-0-02-917960-4.
  27. a b c E.J. Gumbel, Ladislaus von Bortkiewicz, [w:] William Kruskal, Judith M. Tanur (red.), International encyclopedia of statistics, New York: Free Press, 1978, s. 24–27, ISBN 978-0-02-917960-4.
  28. I.J. Good. Some statistical applications of Poisson’s work. „Statistical Science”. 1 (2), s. 157–180, 1986. DOI: 10.1214/ss/1177013690. 
  29. Kubik i Krupowicz 1982 ↓, s. 441-442.
  30. Samuel W. Hasinoff, Photon, Poisson Noise, Springer, Boston, MA, 2014, s. 608–610, DOI10.1007/978-0-387-31439-6_482, ISBN 978-0-387-31439-6 (ang.).
  31. George Casella, Roger L. Berger, Statistical Inference, Second edition, CRC texts in statistical science series, Boca Raton: CRC Press, Taylor & Francis Group, 2024, s. 203–204, ISBN 978-1-032-59303-6.
  32. Norman L. Johnson, Adrienne W. Kemp, Samuel Kotz, Univariate Discrete Distributions, wyd. 1, Wiley Series in Probability and Statistics, Wiley, 19 sierpnia 2005, DOI10.1002/0471715816, ISBN 978-0-471-27246-5 (ang.).
  33. F. Garwood, (i) Fiducial Limits for the Poisson Distribution, „Biometrika”, 28 (3-4), 1936, s. 437–442, DOI10.1093/biomet/28.3-4.437, ISSN 0006-3444 [dostęp 2026-04-23] (ang.).
  34. Norman E. Breslow, Nicholas E. Day, Statistical methods in cancer research. Vol. 2: The design and analysis of cohort studies, wyd. Reprinted, IARC scientific publications, Lyon: International Agency for Research on Cancer, 1996 (82), ISBN 978-92-832-0182-3.

Bibliografia

edytuj
  • W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, Wydawnictwo Naukowe PWN, Warszawa 1998, cz. I Rachunek prawdopodobieństwa.
  • Lech T. Kubik, Andrzej Krupowicz, Wprowadzenie do rachunku prawdopodobieństwa i jego zastosowań, Warszawa 1982, Państwowe Wydawnictwo Naukowe.
  • Dawid A. McQuarrie, Matematyka dla przyrodników i inżynierów, tom 3, Wydawnictwo Naukowe PWN, Warszawa 2006, str. 164 i 168.
  • Herbert Edward Soper. Tables of Poisson’s exponential binomial limit. „Biometrika”. 10, s. 25–35, 1914.  - rozkład po raz pierwszy nazwany rozkładem Poissona w tej pracy.

Referencje

edytuj

Linki zewnętrzne

edytuj

📚 Artikel Terkait di Wikipedia

Python

reduce(lambda x, y: x * y, range(2, n + 1), 1) Nieco mylące dla zwolenników programowania funkcyjnego może być słowo kluczowe lambda. Bloki lambda mogą

Funkcja anonimowa

oracle.com [dostęp 2017-11-18] . The Java Tutorials: Lambda Expressions, docs.oracle.com "Programming in Lua - More about Functions". https://php.net/create_function

Monada (programowanie)

u n i t ( ⟨ a , b ⟩ ) ) ) . {\displaystyle prod(A,B)=bind(A,\lambda a\to bind(B,\lambda b\to unit(\langle a,b\rangle ))).} Istotne w tym przykładzie to

Teoria języków programowania

Teoria języków programowania (ang. programming language theory, PLT) – dziedzina informatyki teoretycznej zajmująca się analizą, charakteryzacją, klasyfikacją

Programowanie funkcyjne

Podstawą teoretyczną programowania funkcyjnego jest rachunek lambda (a dokładnie rachunek lambda z typami). Został on opracowany w latach 30. XX wieku przez

Lisp

wygodna matematyczna notacja dla programów komputerowych, oparta na rachunku lambda stworzonym przez Alonzo Churcha. Szybko został najchętniej wybieranym językiem

Iota i Jot

przez kontynuację w. rachunek kombinatorów rachunek lambda Chris Barker: Zot. The Esoteric Programming Languages Webring. [dostęp 2018-10-24]. [zarchiwizowane

ECMAScript

możliwość wykorzystania for_each z bibliotekami boost::bind oraz boost::lambda jako konstrukcję BOOST_FOREACH z biblioteki boost jako pętla for bazująca