Hipotezy w biostatystyce - w jaki sposób się je formułuje i weryfikuje?
Mianem hipotez statystycznych określa się przypuszczenia jakie wysnuwa badacz na temat rozkładu rozpatrywanej cechy w badanej populacji - są to zatem wszelkie domysły o populacji generalnej formułowane przez analityka bez jej pełnej znajomości. Tak sformułowane na podstawie danych z próby lub na podstawie intuicji badającego hipotezy podlegają weryfikacji z wykorzystaniem reguł statystyki matematycznej, które wespół z wiedzą z zakresu nauk o życiu i zdrowi tworzą fundamenty metodologiczne wspominanej na niniejszym portalu specyficznej dziedziny jaką jest biostatystyka.
Istota hipotez statystycznych i ich weryfikacji
Pomimo „przypuszczalnego” charakteru hipotez, zarówno ich umiejętne formułowanie, jak i późniejsza weryfikacja uchodzą za niemniej istotne od innych etapy wnioskowania statystycznego. Co istotne, procesu rzeczonej weryfikacji dokonuje się z wykorzystaniem omawianych już testów statystycznych w odniesieniu do tzw. hipotez H1, zwanych roboczymi lub badawczymi, które stanowią prawdopodobne odpowiedzi na postawione w toku analizy danych zagadnienia problemowe.
Weryfikacji tych interesujących badacza stwierdzeń dokonuje się w sposób pośredni, czemu służą tzw. hipotezy H0, tj. hipotezy zerowe, pozostające w opozycji do hipotez badawczych i poddawane bezpośredniej ocenie - buduje się je zawsze tak, by ich odrzucenie pociągało za sobą przyjęcie przez badacza hipotezy badawczej (H1). Istota weryfikacji hipotez sprowadza się zatem do przyjęcia/nieprzyjęcia hipotezy H1 w oparciu o przyjęcie/odrzucenie hipotezy H0.
Wiarygodność weryfikacji
Weryfikacja hipotez statystycznych wiąże się z ich przyjmowaniem/odrzucanie, nie zaś udowadnianiem/obalaniem, tj. orzekaniem o och prawdziwości/fałszywości. Prawidłowość ta stwarza zagrożenie odrzucenia hipotezy wiarygodnej czy przyjęcia nieprawdziwej - przed badaczem stoi zatem wyzwania obniżenia prawdopodobieństwa podjęcia błędnej decyzji w tym zakresie. Błąd ten może przejawiać dwojaki charakter:
- błąd alfa (tj. błąd pierwszego stopnia/rodzaju) wynikający z odrzucenia hipotezy zerowej (H0) w sytuacji, gdy w rzeczywistości jest ona prawdziwa - błąd ten to tzw. poziom istotności, oznaczany symbolem alfa i przyjmowany zasadniczo na poziomie 0,05, 0,01 lub 0,001;
- błąd beta (tj. błąd drugiego stopnia/rodzaju) wynikający z przyjęcia hipotezy zerowej (H0) w sytuacji, gdy w rzeczywistości jest ona fałszywa - błąd ten oznacza się symbolem beta.
Wartość alfa odzwierciedla poziom błędu na jaki godzi się badacz przy ocenie hipotezy - im niższy poziom istotności tym wyższy jest poziom wiarygodności hipotezy zerowej. To znaczące, gdyż wnioski powzięte w oparciu o pewność statystyczną rzędu 95% lub 99% określa się jako istotne - w przypadku wyższych pewności (alfa=0,001) wnioski te przyjmują natomiast rangę bardzo istotnych.
Jak wskazują liczne opracowania statystyczne, wybór poziomu istotności dyktowany jest na ogół wieloma odmiennymi kryteriami - za najważniejsze uznaje się w biostatystyce:
- wagę problemu badawczego - przy rozpatrywaniu problemów mniej ważnych przyjęło się ustalać poziom istotności na 0,05, bardziej rygorystyczne poziomy wartości alfa przyjmuje się natomiast, gdy rozwiązanie zadanego problemu niesie ze sobą ryzyko utraty zdrowia lub życia;
- liczebność próby - dla prób dużych rekomenduje się ustalać wartość alfa na poziomie 0,01 lub 0,001.
Reasumując powyższe warto zaakcentować, iż proces weryfikacji hipotez statystycznych (a więc - stosowanych i w biostatystyce) sprowadza się do: sformułowania hipotezy zerowej (H0) oraz roboczą (H1), przyjęcie odpowiedniego poziomu istotności (alfa), wybór testu statystycznego (odpowiedniego do danej hipotezy) oraz sprawdzenie dochowania jego założeń i dokonanie niezbędnych obliczeń sprawdzających w oparciu o dane pozyskane z próby badawczej, podjęcie decyzji o odrzuceniu/nieodrzuceniu hipotezy zerowej przy danym poziomie istotności. W toku weryfikacji nie można jednak zapomnieć o końcowej interpretacji otrzymanych wyników.
Aspekty teoretyczne ww. procesu omówione zostaną szerzej w odrębnych artykułach. Z punktu widzenia niniejszego tekstu oraz typologii omawianych w nim hipotez biostatystycznych warto odnieść się jednak nieco szerzej do problematyki ich formułowania - stąd poniższy, krótki, podpunkt dot. poprzedzającego wszelkie obliczenia statystyczne formułowania hipotez badawczych.
Formułowanie hipotez statystycznych
Zarówno analizy statystyczne dla biznesu, jak również i te dla nauki czy medycyny/farmacji operują hipotezami mogącymi dotyczyć wolumenów (wartości) badanych zmiennych, różnicy pomiędzy cechami charakteryzującymi rozpatrywaną grupę, zależności obserwowanymi między badanymi zmiennymi czy porównań rozkładów tych zmiennych. Niezależnie jednak od tematycznych aspektów rozpatrywania hipotez, poprawna ich weryfikacja wymaga - jak zaakcentowano wcześniej - właściwego ich sformułowania.
I tak, z jednej strony obowiązuje badacza wymóg wypracowania przeciwstawnych hipotez H1 i H0, z drugiej zaś - zaleca się konstruowanie hipotez w formie zdań oznajmujących, łatwych przy ocenie oraz przyjęciu/odrzuceniu. Jednocześnie jednak sposób formułowania hipotez w biostatystyce silnie uzależniony jest od problemu badawczego jakiego dotyczą dane analizy statystyczne (dla farmacji/medycyny). Warto zatem wyróżnić kilka popularnych, często stosowanych odmian hipotez badawczych:
- hipotezy istotności różnic - których celem zasadniczym jest ustalenie, czy charakterystyki opisujące próby losowe różnią się między sobą w sposób istotny czy przypadkowy (hipoteza H0 wyraża w takim przypadku przypuszczenie występowania przypadkowej różnicy pomiędzy charakterystykami);
- hipotezy niezależności - służą one określeniu współzależności minimum dwóch charakteryzujących populacje generalną cech (formułowane są w sposób zakładający, iż wyrażana dla przykładu współczynnikiem korelacji wartość liczbowa takiej współzależności cech wynosi zero);
- hipotezy zgodności - jw. pozwalają na ocenę zgodności rozkładów badanej cechy (formułuje się je zasadniczo na dwa sposoby: gdy badania dotyczy ustalenia typu rozkładu zmiennej losowej charakteryzującej generalną populację hipoteza H0 zakłada zgodność otrzymanego rozkładu zmiennej i rozkładu teoretycznego, gdy zaś oceniana jest zgodność rozkładów empirycznych pozyskanych z badań dwóch różnych zmiennych w ramach tej samej populacji bądź tej samej zmiennej w dwóch odrębnych populacjach - forma hipotez odpowiada wtedy przyjętym zależnościom).
Jednocześnie, omawiając typologię hipotez nie można jednak nie wspomnieć o tradycyjnym ich podziale, który determinuje sama analiza statystyczna - rodzaj prowadzonej w jej ramach testu. Tym sposobem wyróżnić można hipotezy statystyczne parametryczne (dotyczą wartości parametrów statystycznych populacji takich jak dla przykładu średnia czy wariancja) oraz nieparametryczne (dotyczą postaci rozkładu cech lub losowości badanej próby).