Im Rahmen einer Klassifizierung von Objekten lassen ein oder mehrere spezielle Merkmale, als Klassifikatoren bezeichnet, eine Auftrennung in Klassen zu. Wird mit einem Test auf ein Merkmal die Klassenzugehörigkeit ermittelt, können verschiedene Arten von Zuordnungsfehlern auftreten. Aus diesen lassen sich verschiedene statistische Kennwerte wie Sensitivität, Spezifität, Relevanz und Segreganz errechnen, die die Güte des zum Klassifikator erhobenen Tests oder auch der gewählten Klassifikation charakterisieren.
Der tatsächlichen Gesundheitszustand des Probanden anhand anderer „harter“ Fakten (krank | gesund) und das Testergebnis (positiv | negativ) lassen vier Kombinationen zu, die in einer Wahrheitsmatrix wie folgt dargestellt werden:
| Person ist krank (a+c) | Person ist gesund (b+d) | |
|---|---|---|
| Test positiv (a+b) | richtig positiv (a) | falsch positiv (b) |
| Test negativ (c+d) | falsch negativ (c) | richtig negativ (d) |
In den Fällen a (Person ist krank und die Krankheit wird erkannt) und d (Person ist gesund und der Test meldet keine Krankheit) ist die Einteilung richtig. In den Fällen b (falsche Diagnose auf Krankheit) und c (Krankheit wird vom Test nicht erkannt) liegt ein Fehler vor.
Statistisch wird der Fehler im Fall b, wo ein falsch positives Testergebnis real Gesunde als Kranke identifiziert, als Fehler 1. Art oder α-Fehler bezeichnet. Im Fall c mit dem falsch negativen Testergebnis, wo ein Kranker nicht erkannt wird, spricht man vom Fehler 2. Art oder β-Fehler.
Trägt man die absolute Häufung der Probanden in eine Vierfeldertafel ein, kann man verschiedene Kenngrößen der Klassifizierung errechnen, die ihrerseits eine Gütebeschreibung des verwendeten Klassifikators (des verwendeten medizinischen Tests) gestatten:
Diese Kennwerte beeinflussen sich leider gegenseitig. Handelt es sich nicht um einen qualitativen Test, sondern um einen quantitativen, bei dem man den Grenzwert willkürlich festlegen kann, so kann man die Rate der falsch positiven Ergebnisse auf Kosten der Falschnegativ-Rate verringern und umgekehrt. Anders formuliert: Je sicherer Kranke mit dem Test identifiziert werden sollen (höhere Sensitivität), um so mehr Gesunde werden auch fälschlich als Kranke klassifiziert. Darüber hinaus wird auch ein extremes Ungleichgewicht zwischen Kranken und Gesunden verfälschen. Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden, so führt dies im allgemeinen zu einem geringen Wert in der Relevanz.
Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken: Preiswerte Screening-Tests werden so justiert, dass eine möglichst kleine Anzahl falsch negativer Ergebnisse vorliegt. Die produzierten falsch positiven Testergebnisse werden anschließend durch einen Bestätigungstest identifiziert. Für schwerwiegende Erkrankungen sollte immer ein Bestätigungstest durchgeführt werden. Dieses Vorgehen ist für die Bestimmung von HIV sogar gefordert.
Je nach Einsatzgebiet kann eine Fehlklassifikation mehr oder weniger schlimme Folgen haben. Ihre Auswirkungen lassen sich zur Bewertung eines Klassifikators in einer Kostenmatrix angeben.
Ein Diagramm der Klassifikatorgüte liefert die Receiver Operating Characteristic (ROC), die auch eine Grenzwertoptimierung ermöglicht.
Bei einer angenommenen Genauigkeit von 99,9 % des kombinierten AIDS-Tests sowohl für positive als auch negative Ergebnisse (Sensitivität und Spezifität = 0,999) und der aktuellen Verbreitung von AIDS (Stand 2003) in der Deutschen Bevölkerung (80.000.000 Einwohner, davon 40.000 HIV-positiv) wäre ein allgemeiner AIDS-Test verheerend.
| HIV pos. | HIV neg. | ||
|---|---|---|---|
| AIDS-Test positiv | 40 000 | 80 000 | 120 000 |
| AIDS-Test negativ | 40 | ca.80 Mio | |
| Summe | 80 Mio |
Zwar würden von 40.000 tatsächlich Erkrankten lediglich 40 HIV-IInfizierte fälschlicherweise nicht erkannt, aber ca. 80.000 Personen würden fälschlicherweise als HIV-Positiv diagnostiziert. Von 120.000 positiven Ergebnissen wären etwa 66 % falsch positiv. Somit liegt die Wahrscheinlichkeit, dass jemand der positiv getestet wurde auch wirklich HIV-positiv ist, bei nur 33%. Anders formuliert, die Relevanz beträgt 33%.
Ein zweiter Test kann die Unsicherheit hingegen drastisch reduzieren. Die Wahrscheinlichkeit, dass jemand HIV-positiv ist, wenn er zwei mal positiv getestet wurde, liegt schon bei 99.8%.
| Herzinfarkt pos. | Herzinfarkt neg. | ||
|---|---|---|---|
| Untersuchung positiv | 1,3 Mio | ||
| Untersuchung negativ | 34 000 | 2,75 Mio | |
| Summe | 32% | 68% | ca. 4 Mio |
| Wahrer Sachverhalt: H0 | Wahrer Sachverhalt: H1 | |
|---|---|---|
| durch einen stat. Test fällt eine Entscheidung für die Nullhypothese H0 | 1-alpha | beta (Fehler 2. Art falsch negativ) |
| durch einen stat.Test fällt eine Entscheidung für die alternative Hypothese H1 | alpha (Fehler 1. Art, falsch positiv) | 1-beta. "Power" |
Beispiele
Ein Angeklagter ist schuldig oder unschuldig und soll verurteilt oder freigelassen werden:
| Angeklagter ist unschuldig | Angeklagter ist schuldig | |
|---|---|---|
| durch ein Gericht fällt eine Entscheidung für: unschuldig | richtige Entscheidung | ein Schuldiger wird freigesprochen |
| durch ein Gericht fällt eine Entscheidung für: schuldig | ein Unschuldiger wird verurteilt | richtige Entscheidung |
| Person ist zugangsberechtigt | Person ist nicht zugangsberechtigt | |
|---|---|---|
| eine Zugangskontrolle fällt eine Entscheidung für: Person ist zugangsberechtigt | richtige Entscheidung | Unbefugter erhält Zugang |
| eine Zugangskontrolle fällt eine Entscheidung für: Person ist nicht zugangsberechtigt | Berechtigter wird nicht eingelassen | richtige Entscheidung |
Die Ausgangshypothese (H0, "null" für keinen Unterschied) ist hierbei die Annahme, die Testsituation befinde sich im "Normalzustand", d.h. in den oben genannten Beispielen "der Patient ist gesund", "der Angeklagte ist unschuldig" oder "die Person hat Zugangsberechtigung". Wird also dieser "Normalzustand" nicht erkannt, obwohl er tatsächlich vorliegt, handelt es sich um einen Fehler 1. Art.
Beispielsweise wird eine Person zu Unrecht als krank bezeichnet, obwohl sie tatsächlich gesund ist. Falsch Positive (englisch: false positives) sind zu Unrecht als krank bezeichnete Gesunde.
Nota bene: Die Aussage "Ein Unterschied, etwa in einer Methode, wird auf einem Signifikanzniveau von 5% festgestellt" ist nicht gleich bedeutend mit der Aussage: "Wenn ich annehme, es gibt einen Unterschied, dann irre ich mich in 5% der Fälle." Für diese Aussage ist nämlich die Power (=1-beta) eines Tests zuständig!
Die Häufigkeit für einen Fehler 1. Art wird bei der Berechnung von Signifikanzen als Irrtumswahrscheinlichkeit bezeichnet.
Hier wird also nicht erkannt, dass nicht der "Normalzustand" vorliegt. Die solcherart falsch klassifizierten Zustände werden falsch negativ genannt.
Beispielsweise wird eine Person zu Unrecht als gesund bezeichnet, obwohl sie tatsächlich krank ist. Falsch Negative (englisch: false negatives) sind nicht entdeckte Kranke.
Nota bene: Bei der Berechnung mit Alpha und Beta handelt es sich um bedingte Wahrscheinlichkeiten!
Statistik | Künstliche Intelligenz | Klassifikation | Medizinstatistik
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Beurteilung eines Klassifikators".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world