Ein statistischer Test dient in der mathematischen Statistik dazu, anhand vorliegender Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese zu treffen. Formal ist ein Test also eine mathematische Funktion. Da die vorhandenen Daten Realisationen von Zufallsvariablen sind, lässt sich niemals mit Sicherheit sagen, ob eine Hypothese stimmt oder nicht. Man versucht daher, die Wahrscheinlichkeiten für Fehlentscheidungen zu kontrollieren, was einem Test zu einem vorgegebenen Signifikanzniveau entspricht. Wir sprechen daher auch von einem Hypothesentest oder auch Signifikanztest.
Es gibt zwei demnach zu Beginn des Verfahrens die beiden Hypothesen "der Verdächtige ist unschuldig" und "der Verdächtige ist schuldig". Erstere nennt man Nullhypothese, von ihr wird vorläufig ausgegangen. Der zweite nennt man Alternativhypothese. Sie ist diejenige, die zu "beweisen" versucht wird.
Um einen Unschuldigen nicht zu schnell zu verurteilen, wird die Hypothese der Unschuld erst dann verworfen, wenn ein Irrtum sehr unwahrscheinlich ist. Man spricht auch davon, die Wahrscheinlichkeit für einen Fehler erster Art (also das Verurteilen eines Unschuldigen) zu kontrollieren. Naturgemäß wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit für einen Fehler zweiter Art (also das Freisprechen eines Schuldigen) "groß". Aufgrund der stochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsätzlich nicht vermeiden. Man versucht in der Statistik allerdings, optimale Tests in der Hinsicht zu konstruieren, dass sie die Fehlerwahrscheinlichkeiten minimieren.
Wir werden unseren Testperson 25 mal die Rückseite einer rein zufällig gewählten Spielkarte zeigen und sie danach fragen, zu welcher der vier Farben (Kreuz, Pik, Herz, Karo) die Karte gehört. Die Anzahl der Treffer nennen wir X.
Da die Hellsehfähigkeiten der Person getestet werden sollen, gehen wir vorläufig von der Nullhypothese aus, die Testperson sei nicht hellsehend. Die Alternativhypothese lautet entsprechend: Die Testperson ist mehr oder weniger hellseherisch begabt.
Was bedeutet das für unseren Test? Wenn der Nullhypothese richtig ist, wird die Testperson nur versuchen können, die jeweilige Farbe zu erraten. Für jede Karte gibt es natürlich eine Wahrscheinlichkeit von 1/4, richtig zu antworten. Ist die Alternativhypothese richtig, hat die Person für jede Karte eine grössere Wahrscheinlichkeit als 1/4. Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersage p.
Die Hypothesen lauten dann:
Wenn die Testperson alle 25 Karten richtig benennt, wir werden sie als Hellseher betrachten und natürlich die Nullhypothese ablehnen. Und mit 24 oder 23 Treffer auch. Andererseits gibt es bei 5 oder 6 Treffern keinen Grund dazu. Aber was wäre mit 12 Treffern? Was ist mit 17 Treffern? Wo liegt die kritische Anzahl an Treffern c, von der an wir nicht mehr glauben können, es seien reine Zufallstreffer?
Wie bestimmen wir also den kritischen Wert c? Man sieht leicht ein, dass man mit c = 25 (also dass wir nur hellseherische Fähigkeiten erkennen wollen, wenn alle Karten richtig erkannt worden sind) deutlich kritischer ist als mit c = 10. Im ersten Fall wird man kaum ein Person als Hellseher ansehen, im zweiten Fall einige mehr.
In der Praxis kommt es also darauf an, wie kritisch man genau sein will, also wie oft man eine Fehlentscheidung erster Art zulässt. Mit c = 25 ist die Wahrscheinlichkeit einer solchen Fehlentscheidung:
also sehr klein. Es ist die Wahrscheinlichkeit, dass die Testperson rein zufällig 25 mal richtig geraten hat.
Weniger kritisch, mit c = 10, erhalten wir mit
eine wesentlich größere Wahrscheinlichkeit.
Man sollte sich immer vor einem Test überlegen, wie kritisch man sein will, und eine entsprechende Wahrscheinlichkeit für den Fehler erster Art festsetzen. Typisch sind Werte zwischen 0,1% und 5%. Abhängig davon lässt sich (hier im Falle eines Signifikanzniveaus von 1%) dann c so bestimmen, dass
gilt. Unter allen Zahlen c, die diese Eigenschaft erfüllen, wird man zuletzt c als die kleinste Zahl wählen, die diese Eigenschaft erfüllt, um die Wahrscheinlichkeit für den Fehler zweiter Art klein zu halten. In diesem konkreten Beispiel folgt: c = 12.
In der statistischen Praxis macht man aus diesem vordergründig symmetrischen Problem ein unsymmetrisches: Man legt ein Signifikanzniveau α fest, das eine obere Schranke für die Wahrscheinlichkeit eines Fehlers erster Art liefert. Tests mit dieser Eigenschaft heißen Test zum Niveau α. Im Anschluss daran versucht man, einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten, dass man unter allen Tests zum Niveau α einen sucht, der die geringste Wahrscheinlichkeit für einen Fehler 2. Art aufweist.
Neyman-Pearson-Tests lassen sich auf einseitige Hypothesen der Form und ausdehnen, falls die Verteilungsfamilie einen monotonen Dichtequotienten besitzt.
Eine wichtige weitere Anforderung an einen guten Test ist, dass er bei wachsendem Stichprobenumfang empfindlicher wird. In statistischen Termini bedeutet dies, dass bei Vorliegen einer konsistenten Teststatistik die Wahrscheinlichkeit dafür steigt, dass die Nullhypothese auch tatsächlich zu Gunsten der Alternative verworfen wird, falls sie nicht stimmt. Speziell wenn der Unterschied zwischen dem tatsächlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist, wird er erst bei einem entsprechend großen Stichprobenumfang entdeckt. Ob diese Abweichungen jedoch von praktischer Bedeutung sind und überhaupt den Aufwand einer großen Stichprobe rechtfertigen, hängt von dem zu untersuchenden Aspekt ab.
Sofern die gemachten Verteilungannahmen nicht stimmen, sind die Ergebnisse des Tests in den meisten Fällen unbrauchbar. Speziell lässt sich die Wahrscheinlichkeit für einen Fehler zweiter Art nicht mehr sinnvoll minimieren. Man spricht dann davon, dass für viele Alternativen die power sinkt.
Typische Beispiele sind Tests auf eine bestimmte Verteilungsfunktion wie der Kolmogorow-Smirnow-Test oder der Wilcoxon-Test zum Vergleich der Mediane zweier Stichproben.
Da jedoch parametrische Tests trotz Verletzung ihrer Annahmen häufig eine bessere Power bieten als nicht-parametrische, kommen letztere eher selten zum Einsatz.
Besondere Formen dieser Tests sind:
- | Tests | Kurzbeschreibung | - | Verteilungsanpassungstests | - | χ2-Anpassungstest | Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung | - | Kolmogorow-Smirnow-Test | Test einer Stichprobe auf Zugehörigkeit zu einer Verteilung | - | Shapiro-Wilk-Test | Test einer Stichprobe auf Zugehörigkeit zur Normalverteilung | - | Parametrische Tests | - | t-Tests (einfach, doppelt, doppelt mit gepaarten (=verbundenen,abhängigen) Stichproben ) | Test auf Erwartungswert; Vergleich zweier Erwartungswerte; Test auf Korrelation; Signifikanztest von Regressionskoeffizienten | - | F-Test | Vergleich zweier Varianzen; Modelltest der Regressionsanalyse | - | chi2-Test von Bartlett | Vergleich von mehr als zwei Varianzen | - | Test von Levene | Test auf Homogenität von Varianzen zwischen Gruppen | - | Verteilungsfreie (nichtparametrische) Tests | - | χ2Unabhängigkeitstest | Prüfung der Unabhängigkeit zweier Merkmale | - | Test von Cochran/Cochrans Q | Test auf Gleichverteilung mehrerer verbundener dichotomer Variablen | - | Kendalls Konkordanzkoeffizient/Kendalls W | Test auf Korrelation von Rangreihen | - | Wilcoxon-Rangsummentest | Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im 2-Stichprobenfall | - | Mann-Whitney-U-Test | äquivalent zum Wilcoxon-Rangsummentest | - | Kruskal-Wallis-Test | Test auf Gleichheit des Lageparameters, bei unbekannter aber identischer Verteilung im c-Stichprobenfall | - | Run(s)-Test | Prüfung einer Reihe von Werten (z. B. Zeitreihe) auf Stationarität | - | Wald-Wolfowitz-Run(s)-Test | Test auf Gleichheit zweier kontinuierlicher Verteilungen |
|---|
Auswahl des Signifikanztestverfahrens
abhängig: Zwei Stichproben A und B hängen voneinander im Bezug auf Störgrößen und Einflussgrößen ab (z.B. Vorher-Nachher-Vergleiche, Medikament A und B werden an je einem Patienten gleichzeitig gegeben...)
| METRISCH | ||||||||
| NOMINAL | ORDINAL | nicht normalverteilt, aber ähnlich | normalverteilt | |||||
| unabhängig | abhängig | unabhängig | abhängig | unabhängig | abhängig | unabhängig | abhängig | |
χ2 für: k x l -Felder 2 x 2 Felder | χ2 McNemar-Test für: 2 x 2 Felder | Mann-Whitney | Wilcoxon | Mann-Whitney | Wilcoxon | F-Test (Varianzquotiententest) entscheidet über: | t-Test für verbundene Stichproben | |
| Varianz- homogenität t-Test | Varianz- heterogenität Welch-Test | |||||||
| nichtparametrische Testverfahren | parametrische Testverfahren | |||||||
Prawf rhagdybiaeth | Statistical hypothesis testing | Test d'hypothèse | Test di verifica d'ipotesi | 仮説検定 | Statistische toets
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Statistischer Test".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world