Skip to main content

Statistisches Testen

(a) Die sieben Schritte des statistischen Testens. (b) Der Chi-Quadrat-Test: Anwendungen und Beispiel.

Praxisbeispiel

Außenprüfungsfall: in einem Gewerbebetrieb bemängelt der Prüfer, dass die Tageseinnahmen nicht lognormalverteilt seien. Es wird grundlegend Erlaeutert, wie diese Tests ablaufen, und welche Fehlannahmen und Fallstricke lauern, und zu einem…

Unzulässigkeit

Es mangelt aber nicht nur an sauberer Methodik. Vielmehr ist die Annahme, dass die Lognormalverteilung das "Verteilungsideal" von Tageseinnahmen seien nur mit viel Wohlwollen auf ungenügende Lesekenntnisse zurückzuführen.

1 Grundlagen des statistischen Testens

  1. Es muss eine Fragestellung existieren (so genannte Forschungshypothese, z.B. „der betrügt doch“)

  2. Diese muss sich in ein statistisch testbares Hypothesenpaar übersetzen lassen, wobei in die Nullhypothese \(H_0\) wann immer möglich das Gegenteil der Forschungshypothese gesteckt wird. Z.B.: Wenn die Zahlen nicht manipuliert sind, dann entstammen sie einer Benford–Verteilung \(\Rightarrow H_0:\) „Die Zahlen folgen einer Benford–Verteilung.“ Hierzu gehört dann die Alternativhypothese \(H_1:\) „Die Zahlen folgen nicht einer Benford–Verteilung.“

  3. Es wird ein Signifikanzniveau \(\alpha\) festgelegt, z.B. \(\alpha=0.01=1\%\). Das ist die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie wahr ist. \(\Rightarrow\) Der so genannte \(\alpha\)–Fehler oder auch Fehler 1. Art.

  4. Es ist eine geeignete Stichprobe zu wählen, z.B. die erste Nachkommastelle aller Kassenbelege oder die Tagesumsätze o.ä..

  5. Hieraus wird eine geeignete Teststatistik berechnet.

  6. Diese wird mit dem kritischen Bereich verglichen.

  7. Es wird die Testentscheidung gefällt: Liegt der berechnete Wert der Teststatistik im kritischen Bereich, so wird die \(H_0\) zu Gunsten der \(H_1\) abgelehnt, was die Forschungshypothese untermauert (aber keinesfalls beweist).

    2 Der Chi-Quadrat-Test

    2.1 Anwendungsgebiet

    Der \(\chi^2\)–Test wird in den folgenden drei Formen eingesetzt.

    2.1.1 Homogenitätstest

    Der Homogenitätstest vergleicht zwei (oder mehr) Stichproben, ob diese homogen (i.e. gleichförmig) verteilt erscheinen. Die Nullhypothese lautet hier „die Stichproben stammen aus der gleichen Verteilung“ mit der Alternativhypothese „mindestens eine Stichprobe stammt aus einer anderen Verteilung als die anderen Stichproben.“ Eine Anwendung in der Betriebsprüfung wäre zum Beispiel: „Chef und Angestellter eines Friseursalons verrichten gleichartige Arbeit an den Kunden. Beide sollten also sehr ähnliche Einzelumsätze produzieren. Unterschlägt der Chef eventuell bestimmte Einzelumsätze, wozu er dem Angestellten keine Anweisung erteilen kann/darf/möchte?“ \(\Rightarrow\) Vergleich der Umsatzzahlen von Chef und Angestelltem mit einem Homogenitätstest. Hier muss natürlich sorgfältigst darauf geachtet werden, dass beide tatsächlich im Durchschnitt gleichartige Tätigkeiten am Kunden ausführen, denn sonst steht das Ergebnis (Ablehung) vorher schon mit hoher Wahrscheinlichkeit fest.

    2.1.2 Unabhängigkeitstest

    Der Unabhängigkeitstest untersucht, ob die Verteilung von Werten unabhängig von einem (häufig nominalen/qualitativen) Merkmal ist. So kann man in der Betriebsprüfung, bevor man z.B. Tagesumsätze mit einem Anpassungstest gegen eine Lognormalverteilung vergleicht, prüfen, ob die Verteilung sich für einzelne Tage unterscheidet. Stellt man so signifikante Unterschiede zwischen den Tagen fest, so dürfen nur Umsätze solcher Tage gepoolt werden, zwischen denen keine signifikanten Unterschiede bestehen.

    2.1.3 Anpassungstest

    Der Anpassungstest prüft, ob es plausibel ist, dass eine Stichprobe einer bestimmten Verteilung entstammt. Gerne hergenommen werden hierfür die Benford-Verteilung für einzelne Ziffern und die Lognormalverteilung für Umsatzzahlen, Rechnungsbeträge etc.. Wichtig ist hierbei die Voraussetzung, dass die so betrachteten Zahlen überhaupt eine Chance haben aus einer solchen Verteilung zu stammen. Prüft man z.B. die erste Nachkommastelle der Rechnungsbeträge eines Geschäfts, dessen Preise alle auf \(x.50\) und \(x.00\) enden, gegen eine Benford–Verteilung, so wird dieser Test immer „zu Ungunsten“ des Geschäfts ausfallen — jedoch nicht, weil die Bücher manipuliert sind, sondern weil eine ungeeignete Nullhypothese getestet wurde.

    2.2 Vorgehen mit einfachem Beispiel

    2.2.1 Forschungshypothese

    Wir spielen mit Jack ein Würfelspiel. Er gewinnt immer, wenn er eine 6 würfelt. Für unser Gefühl gewinnt er zu häufig, und wir vermuten, dass sein Würfel nicht fair ist (also nicht jede Seite mit gleicher Wahrscheinlichkeit fällt). Das ist unsere Forschungshypothese.

    2.2.2 Hypothesenpaar

    Ein fairer Würfel sollte alle Werte \(X \in \{1,2,3,4,5,6\}\) mit gleicher Wahrscheinlichkeit von \(\Pr(X=x)=1/6\) produzieren. Die Werte sollten also einer diskreten Gleichverteilung mit dem eben schon genannten Träger folgen. Dies ist unsere Nullhypothese \(H_0:\) „Jacks Würfel produziert Zahlen, die einer Gleichverteilung mit dem Träger \(\{1,2,3,4,5,6\}\) entstammen.“ Unsere Alternativhypothese lautet dann \(H_1:\) „\(H_0\) trifft nicht zu.“

    2.2.3 Signifikanzniveau

    Wir wollen vorsichtig sein, und Jack nur dann Betrug vorwerfen, wenn wir die Nullhypothese — sollte sie richtig sein — nur mit 1%iger Wahrscheinlichkeit ablehnen. Daher wählen wir unser Signifikanzniveau \(\alpha = 0.01\).

    2.2.4 Stichprobe

    Wir haben 100 Spiele mit Jack gespielt, und jeweils den gefallenen Wert notiert. Es ergibt sich folgende Tabelle:

    \(X_i\)123456
    wie oft? \(n_i\)151318141624

    2.2.5 Teststatistik

    Hieraus wird nun eine geeignete Teststatistik errechnet. Wir entscheiden uns, einen \(\chi^2\)­–Anpassungstest durchzuführen. Dieser vergleicht die tatsächlich beobachteten Häufigkeiten \(n_i\) mit den Häufigkeiten, die die in unserer Nullhypothese genannte Verteilung im „Idealfall“ (im Durchschnitt) produziert hätte, \(n_{0,i}\):

    \(X_i\)123456
    \(n_i\)151318141624
    \(n_{0,i}\)16.6716.6716.6716.6716.6716.67
    \(\frac{(n_i - n_{0,i})^2}{n_{0,i}}\)0.16730.80800.10610.42760.02693.2231

     Summiert man nun die letzte Zeile, so erhält man die Teststatistik des Chi-Quadrat-Tests \(\chi^2 = 4.7590\).

    2.2.6 Kritischer Bereich

    Trifft die Nullhypothese zu, so folgt die Teststatistik einer \(\chi^2\)–Verteilung mit fünf Freiheitsgraden. Wir bestimmen das 99%–Quantil (das \(1-\alpha\)–Quantil) dieser Verteilung. Es lautet \(\chi^2(0.99,df=5) = 15.09\). Der kritische Bereich besteht aus allen Werten rechts von 15.09.

    2.2.7 Testentscheidung

    Die Teststatistik liegt nicht im kritischen Bereich, daher lehnen wir die Nullhypothese nicht ab. Augenscheinlich ist die Sechs zwar häufiger gefallen als die anderen Werte, aber dass es zu einem solchen Ergebnis kommen kann, wenn man 100 Male würfelt, ist laut dem Test nicht so unwahrscheinlich, als dass man Jack des Schummelns beschuldigen sollte.