Centralne Twierdzenie Graniczne

Każdy, kto stosuje Six Sigmę, stosuje również Centralne Twierdzenie Graniczne (w skrócie CTG lub z angielskiego CLT), choć może o tym zupełnie nie wiedzieć. CTG jest podstawowym twierdzeniem rachunku prawdopodobieństwa, ale również szeroko stosowane jest w statystyce, wyznaczaniu wartości średnich populacji na podstawie średnich z próby z uwzględnieniem przedziału ufności, uzasadnia szerokie stosowanie rozkładu normalnego, umożliwia testowanie hipotez, ANOVA i DoE oraz analizę regresji itd.

92.41 - 94.37 94.37 - 96.33 96.33 - 98.29 98.29 - 100.25 100.25 - 102.21 102.21 - 104.17 104.17 - 106.13 106.13 - 108.09 108.09 - 110.05 110.05 - 112.01 112.01 - 113.97 113.97 - 115.93 115.93 - 117.89 117.89 - 119.85 119.85 - 121.81 121.81 - 123.77 123.77 - 125.73 125.73 - 127.69 127.69 - 129.65 129.65 - 131.61 mean: 108.34
Rys. 1 Histogram charakterystyki badanej populacji, liczba interwałów = 20.
mean: 108.34
Rys. 2 Histogram rozkładu średnich, wielkość próbki = 9, liczba próbek = 100, liczba interwałów = 20, nr losowania = 3271.
Wybierz parametry do utworzenia histogramów Dane w formacie txt


Zobaczmy jak CTG działa w praktyce. Na Rys. 1 domyślnie jest przedstawiony rozkład trimodalny (całkowicie nie przypominający rozkładu normalnego) populacji liczącej 30000 elementów. Możesz zmienić liczbę interwałów oraz również dane dla populacji używając formularza pod Rys. 2. Za każdym razem histogram na Rys. 2 przybiera inną formę, gdyż jest tworzony na podstawie danych pochodzących z próby losowej z populacji, ponawianej przy każdym odświeżeniu strony.

Każdy pojawiający się prostokąt na Rys. 2, to nowa próbka wylosowana z populacji. Położenie prostokąta określone jest przez wartość średnią z tej próbki. Program ze średnich z próbek buduje histogram. Można ustalić, jak liczne są próbki (n - ile sztuk w próbce), ile ma być próbek (k - liczba próbek) oraz liczbę interwałów w histogramie. Przykładowo jeżeli ustalimy wielkość próbki na 16 a liczbę próbek na 100, to program wylosuje 16 danych z populacji 30000 elementów, obliczy średnią i naniesie jeden prostokąt na histogram średnich na Rys. 2 a następnie powtórzy tę czynność 100-krotnie. Im więcej próbek, im większa liczność próbki tym histogram jest bliższy rozkładowi normalnemu, dodatkowo rozkład średnich szybciej zmierza do rozkładu normalnego.

Zachęcam do wykonania wielu prób, by zobaczyć, co rzeczywiście dzieje się z histogramem rozkładu średnich przy różnych parametrach i różnych populacjach.

Przykładowe dane populacji widocznej na Rys. 1 są dostępne do pobrania w formacie XLSX. W pliku można znaleźć 4 zestawy danych, każdy po 30 000 wierszy o 1) rozkładzie trimodalnym (domyślny zestaw danych), 2) rozkładzie Chi-kwadrat, 3) rozkładzie jednostajnym i 4) rozkładzie normalnym. Aby zmienić dane dla populacji należy wprowadzić dane do pola formularza "Dane w formacie txt", który jest pod Rys. 2. stosując komendę "Kopiuj" (z pliku Excela) i "Wklej" (do formularza pod histogramem). Uwaga: program akceptuje znak dziesiętny tylko w postaci kropki.

Histogramy dla danych z populacji można również wykonać w programie Minitab lub w nowszych wersjach Excela. Wszyscy, którzy używają starsze wersje Excela mogą skorzystać z mojego pliku Excela z makrem do tworzenia histogramów. Efekt działania makra na danych z prezentowanej populacji jest widoczny tutaj.

Faszerowanie Was wzorami statystycznymi to ostania myśl, jaka przychodzi mi do głowy, ale trochę konkretów musze pokazać. Centralne Twierdzenie Graniczne mówi, że nie zależnie od rozkładu danych w populacji (rozkład może być normalny, prawo-, lewoskośny, chi-kwadrat, jednostajny – po prostu dowolny) rozkład średnich z prób dąży do rozkładu normalnego. To pierwsza dobra wiadomość, bo o rozkładzie normalnym mamy szeroką wiedzę. Druga dobra wiadomość, to taka, że jeżeli σ to odchylenie standardowe populacji, to odchylenie standardowe s rozkładu z prób o liczności n z tej populacji wynosi σ /  n  (im większe n tym mniejsze s).

X ~ R(μ, σ)    (1)

X ~ N(μ, s)    (2)

s = σ /  n    (3)

Jeżeli mamy zmienną losową X o dowolnym rozkładzie (wzór (1)), to dla nowej zmiennej losowej X, której wartości to średnie z prób o liczności n, to rozkład zmierza do rozkładu normalnego (wzór (2)). Przy czym odchylenie standardowe w rozkładzie średnich jest określone wzorem (3).

Zmienna losowa to nic innego jak np. nasze pomiary, przykładowo wzrost wszystkich pełnoletnich ludzi w danym kraju. Nie ma chyba chętnego, który chciałby zmierzyć całą populację, ale jest mnóstwo osób, które chciałby umieć to oszacować np. firmy odzieżowe (w końcu trzeba wiedzieć jakie rozmiary będą najbardziej potrzebne – te najbliżej średniej).

Diagram
Rys. 3 Wybrane średnie mi z zaznaczonymi przedziałami ufności dla wartości średnich na tle histogramu ze średnich z próbek o liczności 25.

Przyszedł czas na zastosowania praktyczne. Dane na histogramie średnich (zob. Rys. 2), to siłą rzeczy średnie. Niektóre z nich leżą bliżej a inne dalej średniej z populacji, która jest oznaczona zieloną linią na Rys. 3. Pytanie, jak dobrym przybliżeniem średniej z populacji jest pojedyncza średnia z próby?

Dzięki własności rozkładu normalnego wiemy, że w przedziale +/-2 s (gdzie s – odchylenie standardowe dla średnich z prób) znajduje się 95% wszystkich danych (okay dla ścisłości w przedziale +/- 1,96 s). Jeżeli do każdej średniej dodamy przedział +/-2 s (nazwijmy go dla hecy przedziałem ufności), który na Rys. 3 jest oznaczony czarnym poziomym odcinkiem, to okaże się, że dla każdej średniej przedział ten zawiera średnią z populacji. Przykładowo, jeżeli założymy, że średnia z próbki nr 1 = m1, to w przedziale [m1 – 2s, m1 + 2s] zawiera się średnia z populacji.

Statystycznie możemy to powiedzieć następująco: na podstawie średniej mi (każdej średniej z próbi) z n-elementowej próby, z 95% pewnością przyjmujemy, że średnia z populacji zawiera się w przedziale [mi – 2s, mi + 2s]. To twierdzenie jest prawdziwe niezależnie od rodzaju rozkładu danych w populacji. Uwaga! Jest 5% prawdopodobieństwa, że średnia z populacji jest poza tym przedziałem.

Jeszcze pozostaje kwestia znajomości odchylenia standardowego z populacji. Jeżeli nie jest znane, to dokonujemy daleko idącego założenia, że estymatorem tego odchylenia jest odchylenie z próbki (różnie z tym bywa). Jeszcze jednym źródłem poważnych błędów może być sposób losowania próby (lub pobierania próby). Gdyby np. okazało się, że wszystkie próbki zostały pobrane tylko z obszaru reprezentowanego przez lewą część histogramu z Rys. 1, to nie ma szans, żeby średnia z próby była dobrym przybliżeniem średniej z populacji. Możemy to nazwać problemem sprawiedliwej próby lub reprezentatywnej próby.


Autor: Adam Cetera (LeanSigma.pl)
Data utworzenia: 2018-09-10
Data modyfikacji: 2021-09-25



Zostaw komentarz poniżej, jeżeli chciałbyś coś dodać?

  Wszelkie prawa zastrzeżone © 2013  ○  leansigma.pl  ○  Kontakt

Ta strona używa cookies aby ulepszyć serwis. [więcej informacji o cookies ]
This website uses cookies to provide better service. [More info about cookies ]