Gute Tests sollten möglichst zuverlässig bestimmte Dinge messen können. Die Messgenauigkeit bei wissenschaftlichen Tests wird statistisch durch die Reliabilität ausgedrückt. Die wichtigsten Fragen zur Reliabilität werden hier beantwortet und einige Beispiele aus der Praxis aufgezeigt.
Was ist die Reliabilität?
Mit der Reliabilität wird die Zuverlässigkeit / die Genauigkeit der Messungen des Tests ausgedrückt. Reliable Tests müssen bei Wiederholung der Messungen unter den gleichen Bedingungen die gleichen Ergebnisse erzielen. Die Realiabilität wird in der Statistik über den Reliabilitätskoeffizienten (Rel) erfasst. Der Rel ist ein Quotient, welche die wahre Varianz (Veränderung des Merkmals im Laufe der Zeit) zur Gesamtvarianz (wahre Varianz + Messfehler) ist Verhältnis setzt. Der Rel eines Tests aus der Wissenschaft liegt immer zwischen 0 und 1, wobei ein Rel von 1 für eine völlige Messfehlerfreiheit steht und die 0 für ein Testergebnis, welches nur durch Messfehler zustande kommen kann.
Welche Beispiele für Reliabilität gibt es?
In einem interessanten Artikel vom amerikanischen Psychologen Richard Nisbett werden spannende Beispiele für die Realibilität aus der Praxis genannt. So kann die Messung der Körpergröße eine extrem hohe Reliabilität von nahezu 1 aufweisen. IQ-Test Messungen weisen heute eine Reliabilität von etwa 0,8 und eine Validität von 0,5 auf. Zahnärzte diagnostizieren das Ausmaß von Karies und die Notwendigkeit von Füllungen mit einer Korrelation von 0,8. Es gibt nach Moosbrugger&Rauch vier unterschiedliche Vorgehensweisen zur Berechnung der Reliabilität eines Tests:
Retest-Reliabilität Beispiel-Berechnung
Ein und derselbe Test wird bei den Versuchspersonen an zwei unterschiedlichen Zeitpunkten durchgeführt. Die Realibilität ist dann die Korrelation zwischen den beiden Testergebnissen.
Paralleltest-Reliabilität
Die Versuchspersonen müssen nacheinander sehr ähnliche Tests durchlaufen, welche das selbe Merkmal messen sollen. Die Reliabilität ist die Korrelation zwischen den “parallelen Testformen”. Obwohl die Items nichts identisch sind, sollten am Ende die gleichen Testwerte herauskommen.
Testhalbierungs-Reliabilität (Split-Half-Reliabilität)
Wenn es nicht möglich ist, den Test zu wiederholen (Retest), oder nacheinander ähnliche Testformen anzubieten (Paralleltest), gibt es die Möglichkeit den Test in zwei gleich große Hälften aufzuteilen. In diesem Fall ist die jede Hälfte der Paralleltest zur anderen Hälfte. Um Reliabilität der ursprünglichen Testlänge zu ermittelt wird bei diesem Verfahren mit einem Korrekturfaktor gerechnet (Spearman-Brown-Formel).
Innere Konsistenz
Die innere Konsistenz gibt an, wie stark die einzelnen Items einer Skala untereinander korrelieren. Somit ist die innere Kosistenz die kleinste Form der Testhalbierungs-Reliabilität (Verallgemeinerung der Testhalbierungsmethode auf alle Items). Je stärker die Testteile (Items) unterneinaner positiv korrelieren, desto höher ist die innere Konsistenz. Daraus lässt sich dann systematisch das Reliabilitätsmaß herleiten.
Warum ist die Reliabilität wichtig?
Ohne die Reliabilität (Zuverlässigkeit/Messgenauhigkeit) könnten wir dem Testergebnis nicht vertrauen. Handelt es sich beispielweise bei dem Test um einen IQ-Test, welcher nicht reliabel ist, könnten wir beim ersten Durchgang einen IQ-Wert von 45 erreichen (weit unterdurchschnittlich, starke Behinderung), beim zweiten Durchgang einen IQ-Wert von 91 (Durchschnitt) und beim dritten Durchgang einen Wert von 131 (Hochbegabung). Die Aussagekraft eines solchen Testergebnisses wäre für uns gleich Null und somit mehr oder weniger nur für den Zeitvertreib geeignet.
Was ist wichtiger – Reliabilität oder Validität?
Reliabilität und Validität gehören genauso wie die Objektivität zu den Hauptgütekriterien von statistischen Testverfahren, allerdings gibt es hierbei eine Rangordnung:
- Validität (ein valider Test ist auch reliabel und objektiv)
- Reliabilität (ein reliabler Test ist auch objektiv aber nicht unbedingt valide)
- Objektivität (ein objektiver Test ist nicht unbedingt auch reliabel oder valide)
Ohne Reliabilität kann es somit keine Validität geben. Beide Gütekriterien sind somit wichtig, allerdings erfüllt ein valider Test alle drei Hauptgütekriterien, während ein reliabler Test zumindest die beiden Hauptgütekriterien Objektivität und Reliabilität erfüllen muss.
Was beeinflusst die Reliabilität (Einflussfaktoren)?
Wesentliche Einflussfaktoren der Realibilität ist die
- Länge des Tests / Anzahl der Items (je länger, desto höher in der Regel die Reliabilität)
- Eine höhere Objektivität
- Korrekte Rechtschreibung bei allen Items
- Items sollten trennscharf sein. Items die wenig Aussagekraft auf das Ergebnis haben, sollten ausgeschlossen werden
- Die Rechtschreibung hat für die Reliabilität eine eher zweitrangige Bedeutung.
Ab wann spricht man von einer guten Retest-Reliabilität?
Bei einer Retest-Reliabilität (Korrelation/Äquivalenz bei Testwiederholung) sollte der Reliabilitätskoeffizient (Rel) von 0,7 nicht unterschritten werden. Ein Rel von 0,8 und 0,9 gilt als gut. Der Rel ist die wesentliche Kennzahl, die man sich bei der Bewertung der Reliabilität eines wissenschaftlichen Tests anschauen kann. Nicht ganz unwesentlich ist, ob diese Kennzahl durch einen Retest/Paralleltest/Testhalbierung oder durch innere Konsistenz ermittelt wurde. Der Paralleltest gilt als der Königsweg der Reliabilitätsbestimmung. Bei der Testhalbierung müssen Korrekturfaktoren berücksichtigt werden, wodurch eine geringere Genauigkeit erreicht wird.
Welche Bücher gibt es zu dem Thema?
Ein empfehlenswertes und leicht verständliches Lehrbuch zu dem Thema ist beispielsweise das Buch “Testtheorie und Fragebogenkonstruktion” von Moosbrugger/Kelava (Springer Verlag). Leider gibt es in diesem Buch nur Berechnungsbeispiele zur Reliabilität auf Basis des kostenpflichtigen SPSS Programms.