Popularne rozkłady



Rozkład normalny

Gęstość prawdopodobieństwa
Funkcja gęstości prawdopodobieństwa dla rozkładu normalnego
Czerwona linia odpowiada standardowemu rozkładowi normalnemu.
Dystrybuanta
Dystrybuanta rozkładu normalnego
Kolory odpowiadają wykresowi powyżej
Parametry μ położenie (liczba rzeczywista)
σ2 > 0 podniesiona do kwadratu skala (liczba rzeczywista)
Nośnik x \in\mathbb{R}\!
Gęstość prawdopodobieństwa \frac1{\sigma\sqrt{2\pi}}\; \exp\left(-\frac{\left(x-\mu\right)^2}{2\sigma^2} \right) \!
Dystrybuanta \frac12 \left(1+\mathrm{erf}\,\frac{x-\mu}{\sigma\sqrt2}\right) \!
Wartość oczekiwana (średnia) \mu\;
Mediana \mu\;
Moda \mu\;
Wariancja \sigma^2\;
Współczynnik skośności 0\;
Kurtoza 0\;
Entropia \ln\left(\sigma\sqrt{2\,\pi\,e}\right)\!
Funkcja generująca momenty M_X(t)= \exp\left(\mu\,t+\frac{\sigma^2 t^2}{2}\right)
Funkcja charakterystyczna \chi_X(t)=\exp\left(\mu\,i\,t-\frac{\sigma^2 t^2}{2}\right)
Odkrywca Abraham de Moivre (1733)[1]
Rozkład normalny, zwany też rozkładem Gaussa lub krzywą dzwonową jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych itp.
Przyczyną jest jego częstość występowania w naturze. Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników, jej rozkład będzie zbliżony do normalnego[2], stąd można go bardzo często zaobserwować w danych[3]. Ponadto rozkład normalny ma interesujące właściwości matematyczne, dzięki którym oparte na nim metody statystyczne są dość proste obliczeniowo[4].


Definicja rozkładu normalnego [edytuj]

Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.

Funkcja gęstości

Funkcja gęstości rozkładu normalnego ze średnią μ i odchyleniem standardowym σ (równoważnie: wariancją σ2) jest przykładem funkcji Gaussa. Dana jest ona wzorem:
\phi_{\mu, \sigma}(x) = {1 \over \sigma\sqrt{2\pi} }\,\exp\left(\frac {-(x-\mu )^2} {2\sigma^2}\right)
Fakt, iż zmienna losowa X ma rozkład normalny z wartością oczekiwaną μ i wariancją σ2 zapisuje się często X \sim \mathcal N(\mu, \sigma). Jeśli μ = 0 i σ = 1, to rozkład ten nazywa się standardowym rozkładem normalnym, jego funkcja gęstości opisana jest wzorem:
\phi(x) = {1 \over \sqrt{2\pi} }\,\exp\left(-{x^2 \over 2}\right)
Obrazek u góry artykułu przedstawia wykres funkcji gęstości rozkładu normalnego dla μ = 0 (w jednym przypadku μ = -2) i kilku różnych wartości σ. Im większe σ tym bardziej płaski jest wykres.
We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu. Około 68,3% pola pod wykresem krzywej znajduje się w odległości jednego odchylenia standardowego od średniej, około 95,5% w odległości dwóch odchyleń standardowych i około 99,7% w odległości trzech (reguła trzech sigm). Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej.

Dystrybuanta [edytuj]

Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że zmienna X ma wartości mniejsze bądź równe x i w kategoriach funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:
\ P(X \le x) = \int\limits_{-\infty}^x \frac{1} {\sigma\sqrt{2\pi} } e^{-(u-\mu)^2 \over (2\sigma^2)}\,du
Całki powyższej nie da się obliczyć dokładnie metodą analityczną. W konkretnych zagadnieniach do obliczenia wartości dystrybuanty stosuje się zatem tablice statystyczne (bądź też odpowiednie kalkulatory czy oprogramowanie komputerów). Tablice zawierają dane dla dystrybuanty standardowego rozkładu normalnego, tradycyjnie oznaczanej jako Φ i zdefiniowanej jako rozkład o parametrach μ = 0 i σ = 1:
\Phi(z) = \int\limits_{-\infty}^z {1 \over \sqrt{2\pi} }\,e^{-{x^2 \over 2}}\,dx
Związek dystrybuanty Φ i dystrybuanty rozkładu normalnego X o dowolnie zadanych parametrach μ i σ otrzymuje się za pomocą standaryzowania rozkładu (zob. też poniżej).
P(X \le x) = \Phi\left(\frac{x-\mu}{\sigma}\right)
Dystrybuanta standardowego rozkładu normalnego może być wyrażona poprzez funkcję specjalną (nieelementarną, przestępną), tzw. funkcję błędu jako:
\Phi(z) = \frac{1}{2} \left(1+\operatorname{erf}\,\frac{z}{\sqrt{2}}\right)

Funkcje tworzące [edytuj]

Funkcja charakterystyczna [edytuj]

Funkcją charakterystyczną rozkładu normalnego jest
\varphi(t) = \exp\left(i\mu t-{\sigma^2 t^2 \over 2}\right).
W przypadku standardowego rozkładu normalnego ma ona postać:
\varphi(t) = \exp\left(-{t^2 \over 2}\right).

Własności [edytuj]

  1. Jeśli  X \sim N(\mu, \sigma^2) \, oraz  a, b \,liczbami rzeczywistymi, to  aX + b \sim N(a \mu + b, (a \sigma)^2) . \,
  2. Jeśli  X_1 \sim N(\mu_1, \sigma_1^2) \, i  X_2 \sim N(\mu_2, \sigma_2^2) \, oraz zmienne  X_1 , X_2 \, są niezależne, to  X_1 + X_2 \sim N(\mu_1 + \mu_2 , \sigma_1^2 + \sigma_2^2) . \,
  3. Jeśli  X_1, \dots , X_n niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to zmienna  X_1^2 + \cdots + X_n^2 ma rozkład chi-kwadrat z  n \, stopniami swobody.

Parametry rozkładu [edytuj]

Standaryzowanie zmiennych losowych o rozkładzie normalnym [edytuj]

Konsekwencją własności 1 jest możliwość przekształcenia wszystkich zmiennych losowych o rozkładzie normalnym do standardowego rozkładu normalnego.
Jeśli X ma rozkład normalny ze średnią μ i wariancją σ2, wtedy:
Z = \frac{X - \mu}{\sigma}
Z jest zmienną losową o standardowym rozkładzie normalnym N(0, 1). Ważną konsekwencją jest postać dystrybuanty:
P(X \le x) = \Phi\left(\frac{x-\mu}{\sigma}\right) = \frac{1}{2} \left(1+\mbox{erf}\,\left(\frac{x-\mu}{\sigma\sqrt{2}}\right)\right)
Odwrotnie, jeśli Z jest zmienną losową o standardowym rozkładzie normalnym, to:
X=\sigma Z+\mu \,
jest zmienną o rozkładzie normalnym ze średnią μ i wariancją σ2.
Standardowy rozkład normalny został stablicowany i inne rozkłady normalne są prostymi transformacjami rozkładu standardowego. W ten sposób możemy używać tablic dystrybuanty rozkładu normalnego do wyznaczenia wartości dystrybuanty rozkładu normalnego o dowolnych parametrach.

Generowanie wartości losowych o rozkładzie normalnym [edytuj]

W symulacjach komputerowych zdarza się, że potrzebujemy wygenerować wartości zmiennej losowej o rozkładzie normalnym. Istnieje kilka metod, najprostszą z nich jest odwrócenie dystrybuanty standardowego rozkładu normalnego. Są jednak metody bardziej wydajne, jedną z nich jest transformacja Boxa-Mullera, w której dwie zmienne losowe o rozkładzie jednostajnym (prostym do wygenerowania — patrz generator liczb losowych) są transformowane na zmienne o rozkładzie normalnym.
Transformacja Boxa-Mullera jest konsekwencją własności 3 i faktu, że rozkład chi-kwadrat z dwoma stopniami swobody jest rozkładem wykładniczym (łatwym do wygenerowania).

Centralne twierdzenie graniczne [edytuj]

Jedną z najważniejszych własności rozkładu normalnego jest fakt, że, przy pewnych założeniach, rozkład sumy dużej liczby zmiennych losowych jest w przybliżeniu normalny. Jest to tak zwane centralne twierdzenie graniczne.
W praktyce twierdzenie to ma zastosowanie jeśli chcemy użyć rozkładu normalnego jako przybliżenia dla innych rozkładów.
  • Rozkład dwumianowy z parametrami  (n, p) \, jest w przybliżeniu normalny dla dużych  n \, i  p \, nie leżących zbyt blisko 1 lub 0. Przybliżony rozkład ma średnią równą  \mu = np \, i odchylenie standardowe  \sigma = \sqrt{ np (1-p) } .
  • Rozkład Poissona z parametrem  \lambda \, jest w przybliżeniu normalny dla dużych wartości  \lambda \,. Przybliżony rozkład normalny ma średnią  \mu = \lambda \, i odchylenie standardowe  \sigma = \sqrt{\lambda} .
Dokładność przybliżenia tych rozkładów zależy od celu użycia przybliżenia i tempa zbieżności do rozkładu normalnego. Zazwyczaj takie przybliżenia są mniej dokładne w ogonach rozkładów.

Nieskończona podzielność [edytuj]

Rozkład normalny należy do rozkładów mających własność nieskończonej podzielności.

Występowanie [edytuj]

Rozkład normalny (lub wielowymiarowy rozkład normalny) jest często stosowanym założeniem, w praktyce jednak nigdy nie jest ściśle realizowany. Rozkład normalny ma bowiem niezerową gęstość prawdopodobieństwa dla dowolnej wartości zmiennej losowej, podczas gdy w rzeczywistości zmienne są zawsze ograniczone, a często nieujemne.
Mimo to rzeczywisty rozkład jest często bardzo zbliżony do normalnego, stąd zwykle zakłada się, że zmienna ma rozkład normalny. Nie należy jednak robić tego bez sprawdzenia jak wielkie są rozbieżności. Rozkłady dalekie od normalnego (np. z elementami odstającymi) mogą sprawić, że wyniki metod statystycznych będą mylnie interpretowane.
Przykładem są tu metody regresji liniowej oraz korelacji Pearsona, które, choć zdefiniowane dla dowolnych rozkładów, mają sensowną interpretację tylko dla wielowymiarowego rozkładu normalnego wektora próbki. Jeśli w próbce występują elementy odstające, co jest szczególnym przypadkiem rozkładu dalekiego od normalnego, korelacja może przyjąć dowolną wartość między −1 a +1, bez względu na rzeczywistą zależność między zmiennymi losowymi. Także regresja będzie dawała błędne rezultaty.

Inteligencja [edytuj]

Inteligencja mierzona testami inteligencji uważana jest za zmienną o rozkładzie normalnym. Oczywiście w praktyce testy dają wyniki skwantowane, a nie ciągłe. W dodatku ich wyniki są ograniczone do pewnego przedziału. Przybliżenie jest jednak wystarczające.

Wzrost [edytuj]

Podobnie wzrost człowieka może być uznany w przybliżeniu za zmienną o rozkładzie normalnym. Musimy wtedy oczywiście założyć, że wartość oczekiwana rozkładu wynosi np. 170 cm, aby przypadek "ludzi o ujemnym wzroście" miał znikomo małe prawdopodobieństwo.

Natężenie źródła światła [edytuj]

Natężenie światła z pojedynczego źródła zmienia się w czasie i zazwyczaj zakłada się, że ma rozkład normalny. Jednak zgodnie z mechaniką kwantową światło jest strumieniem fotonów. Zwykłe źródło światła, świecące dzięki termicznej emisji, powinno świecić w krótkich przedziałach czasu zgodnie z rozkładem Poissona. W dłuższym przedziale czasowym (dłuższym niż czas koherencji) dodawanie się do siebie niezależnych zmiennych prowadzi w przybliżeniu do rozkładu normalnego.

Błędy pomiaru [edytuj]

Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów.





Rozkład wykładniczy

Z Wikipedii, wolnej encyklopedii

Skocz do: nawigacji, szukaj
Rozkład wykładniczy
Gęstość prawdopodobieństwa
Funkcja gęstości prawdopodobieństwa
Dystrybuanta
Dystrybuanta
Parametry \lambda > 0 \, odwrotność parametru skali (liczba rzeczywista)
Nośnik [0, \infty)\!
Gęstość prawdopodobieństwa \lambda e^{-\lambda x}\;
Dystrybuanta 1 - e^{-\lambda x}\;
Wartość oczekiwana (średnia) \frac{1}{\lambda}\,
Mediana \frac{\ln(2)}{\lambda}\,
Moda 0\,
Wariancja \lambda^{-2}\,
Współczynnik skośności 2\,
Kurtoza 6\,
Entropia 1 - \ln(\lambda)\,
Funkcja generująca momenty \left(1 - \frac{t}{\lambda}\right)^{-1}\,
Funkcja charakterystyczna \left(1 - \frac{it}{\lambda}\right)^{-1}\,
Odkrywca
Rozkład wykładniczy to rozkład zmiennej losowej opisujący sytuację, w której obiekt może przyjmować stany X i Y, przy czym obiekt w stanie X może ze stałym prawdopodobieństwem przejść w stan Y w jednostce czasu. Prawdopodobieństwo wyznaczane przez ten rozkład to prawdopodobieństwo przejścia ze stanu X w stan Y w czasie δt.
Dystrybuanta tego rozkładu to prawdopodobieństwo, że obiekt jest w stanie Y.
Innymi słowy, jeżeli w jednostce czasu ma zajść 1/λ niezależnych zdarzeń, to rozkład wykładniczy opisuje odstępy czasu pomiędzy kolejnymi zdarzeniami.

Rozkład Weibulla

Z Wikipedii, wolnej encyklopedii

Skocz do: nawigacji, szukaj
Rozkład Weibulla (dwuparametrowy)
Gęstość prawdopodobieństwa
brak wykresu
Dystrybuanta
brak wykresu
Parametry \lambda>0\, parametr skali (liczba rzeczywista)
k>0\, parametr kształtu (liczba rzeczywista)
Nośnik x \in [0; +\infty)\,
Gęstość prawdopodobieństwa (k/\lambda) (x/\lambda)^{(k-1)} e^{-(x/\lambda)^k}
Dystrybuanta 1- e^{-(x/\lambda)^k}
Wartość oczekiwana (średnia) \lambda \Gamma\left(1+\frac{1}{k}\right)\,
Mediana \lambda\ln(2)^{1/k}\,
Moda \lambda \left(\frac{k-1}{k} \right)^{\frac{1}{k}}\, dla k > 1
Wariancja \lambda^2\Gamma\left(1+\frac{2}{k}\right) - \mu^2\,
Współczynnik skośności \frac{\Gamma(1+\frac{3}{k})\lambda^3-3\mu\sigma^2-\mu^3}{\sigma^3}
Kurtoza \tfrac{-6\Gamma_1^4+12\Gamma_1^2\Gamma_2-3\Gamma_2^2
-4\Gamma_1\Gamma_3+\Gamma_4}{[\Gamma_2-\Gamma_1^2]^2}
Entropia \gamma\left(1\!-\!\frac{1}{k}\right)+\ln\left(\frac{\lambda}{k}\right)+1
Funkcja generująca momenty
Funkcja charakterystyczna
Odkrywca Waloddi Weibull (1939, 1951)
Rozkład Weibullaciągły rozkład prawdopodobieństwa często stosowany w analizie przeżycia do modelowania sytuacji, gdy prawdopodobieństwo śmierci/awarii zmienia się w czasie.
Może on w zależności od parametrów przypominać zarówno rozkład normalny (dla k=3.4) , jak i rozkład wykładniczy (sprowadza się do niego dla k=1).
Parametr k rozkładu określa zachowanie prawdopodobieństwa awarii (śmierci) w czasie:
  • dla k<1 prawdopodobieństwo awarii (śmierci) maleje z czasem. W przypadku modelowania awarii urządzenia sugeruje to, że egzemplarze mogą posiadać wady fabryczne i powoli wypadają z populacji.
  • dla k=1 (rozkład wykładniczy) prawdopodobieństwo jest stałe. Sugeruje to, że awarie mają charakter zewnętrznych zdarzeń losowych.
  • dla k>1 prawdopodobieństwo rośnie z czasem. Sugeruje to zużycie części z upływem czasu jako główną przyczynę awaryjności.
Parametr λ można zinterpretować jako czas po którym zginie 1-\frac{1}{e}\approx 63,2% osobników (porównaj wartość charakterystyczna przeżycia).

Bibliografia [edytuj]

  • Rozkład po raz pierwszy wprowadzony w pracy:
Waloddi Weibull. A statistical distribution function of wide applicability. „J. Appl. Mech.-Trans. ASME”. 18(3), ss. 293-297 (1951). 
  

Rozkład gamma

Z Wikipedii, wolnej encyklopedii

Skocz do: nawigacji, szukaj
Rozkład gamma
Gęstość prawdopodobieństwa
Gęstość prawdopodobieństwa rozkładu gamma
Dystrybuanta
Dystrybuanta rozkładu gamma
Parametry k > 0\, parametr kształtu (liczba rzeczywista)
\theta > 0\, parametr skali (liczba rzeczywista)
Nośnik x \in [0; \infty)\!
Gęstość prawdopodobieństwa x^{k-1} \frac{\exp{\left(-x/\theta\right)}}{\Gamma(k)\,\theta^k}\,\!
Dystrybuanta \frac{\gamma(k, x/\theta)}{\Gamma(k)}\,\!
Wartość oczekiwana (średnia) k \theta\,\!
Mediana
Moda (k-1) \theta\text{ dla }k \geqslant 1\,\!
Wariancja {k}{\theta^2}\,\!
Współczynnik skośności \frac{2}{\sqrt{k}}\,\!
Kurtoza \frac{6}{k}\,\!
Entropia k + \ln\theta + \ln\Gamma(k) \!
+ (1-k)\psi(k) \!
Funkcja generująca momenty (1 - \theta\,t)^{-k}\text{ dla }t < 1/\theta\,\!
Funkcja charakterystyczna (1 - \theta\,i\,t)^{-k}\,\!
Odkrywca Weatherburn (1946)
Rozkład gamma to ciągły rozkład prawdopodobieństwa, którego gęstość jest uogólnieniem rozkładu Erlanga na dziedzinę dodatnich liczb rzeczywistych. Rozkład gamma ze względu na klasyfikację Pearsona jest rozkładem typu 3.

Bibliografia [edytuj]

  • Rozkład po raz pierwszy wprowadzony w pracy:
C. E. Weatherburn: A First Course in Mathematical Statistics. Cambridge: Cambridge University Press, 1946. 



Rozkład logarytmicznie normalny

Z Wikipedii, wolnej encyklopedii

Skocz do: nawigacji, szukaj
Rozkład logarytmicznie normalny
Gęstość prawdopodobieństwa
Gęstość prawdopodobieństwa
µ=0
Dystrybuanta
Dystrybuanta
µ=0
Parametry \sigma > 0\;
0 \le \mu < \infty
Nośnik  [0,+\infty)\!
Gęstość prawdopodobieństwa \frac{1}{x\sigma\sqrt{2\pi}}\exp\left[-\frac{\left(\ln(x)-\mu\right)^2}{2\sigma^2}\right]
Dystrybuanta \frac{1}{2}+\frac{1}{2} \mathrm{erf}\left[\frac{\ln(x)-\mu}{\sigma\sqrt{2}}\right]
Wartość oczekiwana (średnia) e^{\mu+\sigma^2/2}
Mediana e^{\mu}\,
Moda e^{\mu-\sigma^2}
Wariancja (e^{\sigma^2}\!\!-1) e^{2\mu+\sigma^2}
Współczynnik skośności (e^{\sigma^2}\!\!+2)\sqrt{e^{\sigma^2}\!\!-1}
Kurtoza \frac{e^{6\sigma^2}-4e^{3\sigma^2}+6e^{\sigma^2}-3}{e^{4\mu+2\sigma^2}(e^{\sigma^2}-1)^4}
Entropia \frac{1}{2}+\frac{1}{2}\ln(2\pi\sigma^2) + \mu
Funkcja generująca momenty Nie istnieje funkcja generująca momenty, jednak wszystkie momenty istnieją i są dane wzorem:
\mu_k=e^{k\mu+k^2\sigma^2/2}
Funkcja charakterystyczna
Odkrywca John Henry Gaddum (1945)

Rozkład logarytmicznie normalny (albo logarytmiczno-normalny, log-normalny) – ciągły rozkład prawdopodobieństwa zmiennej losowej, której logarytm ma rozkład normalny.
Rozkład logarytmicznie normalny jest często lepszym od rozkładu normalnego przybliżeniem rozkładów cech, w których istotne są stosunki pomiędzy wartościami, a nie różnice pomiędzy nimi. Na przykład przybliżony rozkład logarytmicznie normalny mają kursy akcji giełdowych, gdzie ważniejsze jest o ile procent zmniejszyła się lub zwiększyła wartość akcji, a nie o ile złotych.

Bibliografia [edytuj]

  • Rozkład po raz pierwszy wprowadzony w pracy:
John Henry Gaddum. Lognormal distributions. „Nature”. 156, ss. 463-466 (1945).