Als Faktorenanalyse (eigentlich Faktorenanalysen) bezeichnet man eine Sammlung häufig gemeinsam angewendeter statistischer Verfahren, mit denen mehrere Variablen zu einigen wenigen Faktoren zusammen gefasst werden können. Man spricht auch von Variablen-Bündelung. Die Faktorenanalyse wird zu den datenreduzierenden (auch dimensionsreduzierenden) statistischen Verfahren geordnet und wird aufgrund zahlreicher Vorteile sehr häufig angewendet.
Für die Berechnung der Faktoren steht eine Vielzahl von Extraktionsmethoden zur Verfügung. Eine häufig angewendete Extraktionsmethode ist die Hauptkomponentenanalyse PCA. Ebenfalls zur Faktorenanalyse zählen Verfahren, die die Qualität der Faktoren abschätzen, indem sie sie in Bezug zu den Ausgangsvariablen setzen. Auch hierfür ist eine Vielzahl alternativer Berechnungen verfügbar. Weiterhin zählen Analyseschritte hinzu, die die inhaltliche Interpretation der Faktoren erleichtern, wie bsw. die Rotationsverfahren.
Eine häufige begriffliche Verwechslung entsteht durch die Annahme, die Faktorenanalyse sei identisch mit der Hauptkomponentenanalyse. Tatsächlich ist die Hauptkomponentenanalyse heute nur ein Extraktionsverfahren, das zudem hinsichtlich der Modellkriterien angepasst wird.
Diese Informationen (Varianzanteile) dürfen während statistischer Berechnungen nicht auf Grund mathematischer Operationen verloren gehen, sondern müssen in einem möglichst hohen Grad erhalten bleiben. Sie müssen aber, insbesondere bei umfangreichen Datensätzen, auch soweit verdichtet werden, dass einerseits weitere Berechnungen praktisch durchführbar bleiben, andererseits eine inhaltliche Interpretation noch zulässig ist. Ähnlich wie bei der Komprimierung von Musik- und Videodateien, die mit steigender Verdichtung an Qualität verlieren, ist auch bei der Faktorenanalyse ein Kompromiss zu schließen. Wie viele und welche Faktoren in einem spezifischen Anwendungsfall verwendet werden dürfen, ist kriteriengeleitet festgelegt.
Anders ausgedrückt besteht die Grundidee darin, aus vielen Variablen wenige Faktoren zu extrahieren, welche die selben Informationen enthalten. Falls die Faktoren die Varianz der Variablen gut „erklären“ können, so können die Faktoren bei weiteren Berechnungen anstelle der Variablen verwendet werden. Man spricht auch davon, dass die Faktoren die Variablen „vertreten“ dürfen.
Grundproblem: In Fragebögen kann ein Persönlichkeitsmerkmal niemals mit einer einzelnen Frage erfasst werden. Stets müssen zahlreiche Items vorgegeben werden. Items, die ähnliche Fragen stellen, können miteinander verbunden werden:
Historisch gesucht wurde ein Verfahren, mit dem es möglich ist, die aus diesen 5 Items entstehenden 5 Variablen zu bündeln, d.h. Zusammenhänge zwischen diesen Variablen (Einflussgrößen) darzustellen, indem sie diese anhand ihrer Korrelationen in möglichst wenige, nicht überlappende Faktoren klassifiziert. In diesem Beispiel wäre ein Faktor wünschenswert, der inhaltlich als „müde Abgeschlagenheit“ interpretiert werden könnte. Die Bündelung sollte so erfolgen, dass „müde Abgeschlagenheit“ einen möglichst großen Teil der gemeinsamen Varianz der Variablen 1-5 erklärt, damit bei der weiteren Berechnung nur noch mit diesem einen Faktor gerechnet werden muss. Aus dieser praktischen Notwendigkeit entstand eine Sammlung von Verfahren, die heute allesamt zur Faktorenanalyse zählen.
Ursprünglich wurde von Spearman eine explorative Faktorenanalyse entwickelt, die der Hauptkomponentenanalyse (PCA) sehr ähnlich ist, sich aber von ihr unterscheidet. Beiden gemeinsam ist zunächst ihre Modellannahme:
.
wobei:
Ein fundamentaler Unterschied zwischen explorativer Faktorenanalyse und Hauptkomponentenanlyse (PCA) besteht in einer Annahme bezüglich der Korrelation zwischen den Residuen (Messfehler). In der explorativen Faktorenanalyse nimmt man an, die Residuen würden nicht miteinander korrelieren, während in der PCA die Residuen durchaus miteinander korreliert sind/sein können. Das Ganze sieht dann so aus, dass die Korrelationsmatrix der Residuen bei der Faktorenanalyse eine diagonale Matrix ist (d.h. die Elemente ausserhalb der Diagonalen sind gleich 0) und dieselbe Matrix bei der PCA auch Werte ungleich 0 ausserhalb der Diagonalen haben kann.
Dieser „kleine“ aber äußerst feine Unterschied führte zu einem Streit über die Gültigkeit der explorativen Faktorenanalyse (nicht der PCA), der bis heute (also knapp 100 Jahre) anhält (siehe Steiger, J.H. (1979). Factor indeterminacy in the 1930's and in the 1970's... some interesting parallels. Psychometrika, 44, 157–167.).
Historisch weiter entwickelt wurden bsw. die Verfahren:
Auch Orte, die nicht in diesen Richtungen liegen, können gefunden werden. Weiß beispielsweise jemand, dass das Dorf X einen hohen Wert auf dem Nordfaktor und einen geringen Wert auf dem Ostfaktor aufweist, dann kann damit dessen Lage in etwa erfasst werden. Oder umgekehrt, jemand bittet um eine Beschreibung der Lage des Dorfes Y, dann muss keine genaue, für jedes Dorf spezifische Richtung geliefert werden, sondern es reicht aus, die ungefähre Lage auf den Faktoren anzugeben.
Die in diesem Beispiel verwendeten 2 Faktoren reichen also aus, um Reisenden ungefähr den Weg zu weisen, damit sie das Ziel finden. Ähnlich reicht es in statistischen Untersuchungen oft aus, Aussagen über ja/nein-Entscheidungen (z.B. für oder gegen eine Therapieform) anhand ungefährer Ergebnisse zu treffen, solange die Daten hinreichend trivial sind. So könnte eine Faktorisierung von 100 Items eines Fragebogens, der 100 Variablen über den Zweck des Biertrinkens erfasst, hinreichend eindeutig nur wenige Faktoren wie Durst, Spaß am Betrunkensein und Alkoholismus heraus kristallisieren, wobei nur der letzte Faktor eine Therapiebedürftigkeit anzeigt. Man wird sehr viele der Betreffenden finden, ohne ihr Antwortverhalten in allen 100 Fragen exakt analysieren zu müssen, zumal ohnehin nur für oder gegen die Therapie entschieden werden muss.
Mit einer geringen Ungenauigkeit erkauft die Faktorenanalyse eine sehr viel einfachere Auswertung von großen Datensätzen.
Häufig verwendete Extraktionsmethoden sind:
Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen.
Die Hauptkomponentenanalyse ist wegen ihrer Problemlosigkeit die häufigst verwendete Extraktionsmethode. Mit ihr werden Faktoren ermittelt, die sukzessiv einen maximalen Anteil der Varianz beschreiben. Das bedeutet, dass der erste Faktor den größten Anteil der Varianz beschreibt, der zweite Faktor den zweitgrößten usw. In der Regel sind die extrahierten Faktoren voneinander unabhängig, d. h. ihre Korrelation beträgt 0 bzw. sie sind orthogonal.
Nach der Berechnung gibt der Faktorwert für jeden einzelnen Probanden seine Ausprägung auf den einzelnen Faktoren an. Besonders bekannt ist hier die Berechnung des IQ durch den Faktor g von Charles Spearman. Weitere typische Anwendungen sind Persönlichkeitstests, bei denen die Probanden (z.B. n=1000) einen Fragebogen mit z.B. 60 skalierten Fragen ausfüllen, aus denen 60 Variablen mit Einzelwerten für jeden Probanden resultieren. In diesen werden dann zur Bildung eines schlüssigen Persönlichkeitsbildes Faktoren gesucht. Das können bei der Hauptkomponentenanalyse beispielsweise 8 - 12 sein. Ein solcher Faktor könnte Extraversion/Introversion heißen.
Grundlage für die Berechnung ist eine Korrelationsmatrix.
Folgende fiktive Statistik könnte entstehen:
Variable Kommunalität Faktor Eigenw Var kum.Var Var 1 1.00 1 3.7 55.1 55.1 Var 2 1.00 2 3.5 34.3 89.4
Eine wichtige Anmerkung zu diesem Beispiel ist natürlich, dass man in der Forschung viel mehr als nur zwei Ausgangsvariablen untersucht. Die Faktoren stehen deshalb im n-dimensionalen Raum aufeinander, der nicht anschaulich vorgestellt werden kann. Außerdem würde eine Faktorenanalyse, die aus zwei Variablen zwei Faktoren extrahiert, natürlich wenig sinnvoll sein, weil die Zahl der Faktoren sehr viel geringer als die Zahl der Variablen sein soll. Das Beispiel dient der Veranschaulichung des Prinzips.
Folgende fiktive Statistik könnte mit 10 Variablen entstehen:
Variable Kommunalität Faktor Eigenw Var kum.Var in % Var 01 1.00 1 4.7 55.1 55.1 Var 02 1.00 2 4.5 34.3 89.4 Var 03 1.00 3 1.1 5.2 94.6 Var 04 1.00 4 0.9 1.1 95.7 Var 05 1.00 5 0.8 1.0 96.7 Var 06 1.00 6 0.8 0.8 97.5 Var 07 1.00 7 0.5 0.3 97.8 Var 08 1.00 8 0.5 0.2 98.0 Var 09 0.92 9 0.4 0.2 98.2 Var 10 0.31 10 0.3 0.1 98.3
In diesem Beispiel ist nach dem Kaiser-Kriterium die Berücksichtigung von drei Faktoren sinnvoll (Eigenwerte über "1"); nach dem Ellenbogenkriterium hingegen sollen nur zwei Faktoren unterschieden werden (Knick). Nach beiden Kriterien wird ein sehr hoher Anteil der Observablenvarianz aufgeklärt. (89.4 % bzw. 94.6 %) Außerdem zeigt eine geringe Kommunalität der Variable 10 an, dass diese Variable vermutlich zu unrecht in die Rechnung einbezogen wurde. Durch Ausschluß dieser Variable kann möglicherweise eine erneute Rechnung verbessert werden.
Gängige Statistikprogramme wie SPSS oder SAS geben die Faktoren als Variablen in die Datensätze zurück.
Die inhaltliche Interpretation ist immer mit einer eigenen Hypothese verbunden.
Mit einer Testbatterie wurden vier Variablen (Observablen) gewonnen, die die Messwerte eines Rechentests (R), einer Zählaufgabe (Z), eines Lesetests (L) und eines Worttests (W) enthalten. Durch Faktorenanalyse wurden zwei Faktoren extrahiert. Jede der Ausgangsvariablen weist eine Faktorladung auf, die die Korrelation zwischen der Variablen und einem Faktor angibt. Zur Verdeutlichung wird ein Koordinatensystem gezeichnet, in dem die X-Achse dem ersten und die Y-Achse dem zweiten Faktor entspricht. In dieses Koordinatensystem werden nun die Faktorenladungen der vier Ausgangsvariablen eingetragen. Dabei ergebe sich folgender Faktorraum: |Faktor 2 | R | L Z | W | __________|__________Faktor 1 | | | |
Wobei:
Die X-Achse den Faktor 1, die Y-Achse den Faktor 2 darstellt. R, Z, L, W gibt die Position der Faktorladung der Tests in diesem Koordinatensystem wieder. Die Werte entsprechen der Korrelationen der Variablen mit den Faktoren.
Die Skizze zeigt, dass alle vier Ausgangsvariablen hoch mit beiden Faktoren korreliert sind. Wie also sollen die Faktoren interpretiert werden? Während Faktor 1 hier die mathematischen von den sprachliche Kompetenzen noch trennen kann (Vorzeichen), fallen alle vier Variablen auf Faktor 2 zusammen.
Um nun die Faktoren interpretieren zu können, wird das Rotationsverfahren angewendet. Es gibt verschiedene Transformationen – hier soll die am häufigsten verwendete orthogonale Transformationsrotation dargestellt werden.
Orthogonale Rotationstransformation bedeutet, dass das obige Koordinatensystem solange entgegen dem Uhrzeigersinn gedreht wird, bis die einzelnen Variablen jeweils möglichst hoch auf einem Faktor und möglichst niedrig auf dem anderen Faktor laden. Bei dieser Rotation wird aber stets die ursprüngliche Form des Koordinatensystem beibehalten, d. h. beide Faktoren bleiben rechtwinklig zueinander.
In unserem Beispiel könnten das Koordinatensystem um 45° entgegen dem Uhrzeigersinn gedreht werden. Das hätte zur Folge, dass R und Z hoch auf Faktor 2 laden und kaum auf Faktor 1. Und gleichzeitig laden L und W sehr stark auf Faktor 1, aber kaum auf Faktor 2. Dann fiele die Interpretation der Faktoren sehr viel leichter. Da nur die Lese- und Worttests deutlich auf dem ersten Faktor laden, könnte man schlussfolgern, dass der erste Faktor sprachliche Kompetenzen erfasst. Da nur die Rechen- und Zählaufgabe auf Faktor 2 deutlich laden, könnte man diesen als mathematische Kompetenz beschreiben.
Die Rotationsmatrix in diesem fiktiven Fall könnte so aussehen:
Faktor 1 Faktor 2 R .08 .92 Z .03 .89 L .83 -.06 W .82 -.12
Darüber hinaus müssen die Daten intervallskaliert sein, um für eine Faktorenanalyse geeignet zu sein. Dieses Kriterium wird in der Praxis oft verletzt und Daten werden einer Faktorenanalyse unterzogen, die einem niedrigeren Skalenniveau entsprechen (wie etwa Nominalskalenniveau oder Ordinalskalenniveau).
Außerdem können Daten, die auf einer nicht repräsentativen Stichprobe beruhen, zu falschen Ergebnissen führen.
Factor analysis | Vikipedio:Projekto matematiko/Faktora analitiko | Analyse factorielle des correspondances | 因子分析 | Factoranalyse | Analiza czynnikowa | Analisis faktor
This article is licensed under the GNU Free Documentation License.
It uses material from the
"Faktorenanalyse".
Home Page • arts • business • computers • games • health • hospitals • home • kids & teens • news • physicians • recreation• reference • regional • science • shopping • society • sports • world