Montag, 15. Oktober 2018

Wahlbetrug in Bayern? Die Ergebnisse der bayerischen Landtagswahl im Benfordtest

(Bildquelle)


Es gibt statistische Methoden, anhand derer man nachprüfen kann, ob die Verteilung eines Datensatzes, beispielsweise eine Wahlergebnisliste, „natürlich“ zustande kam, oder ob künstlich nachgeholfen wurde. Eine Methode davon basiert auf dem Benfordschen Gesetz, wonach die Zahlen in einem Datensatz an jeder Stelle in einer bestimmten Weise verteilt sein müssen. Kommt beispielsweise die Zahl vier zu oft oder zu selten vor als führende Ziffer, dann deutet dies darauf hin, dass bei dem Datensatz nachgeholfen wurde. Ich habe diesen Test für die Ergebnisse der bayerischen Landtagswahl durchgeführt und es sieht ganz danach aus, als wären beim Auszählen der Stimmzettel ein paar Maß zu viel geflossen..


Die Benfordanalyse und mein Talent für Statistik



Angesichts der Ergebnisse möchte ich zunächst einmal darauf hinweisen, dass sich mein (formales) Statistiktalent in engen Grenzen hält, dies meine erste Anwendung des Benfordschen Gesetzes ist und ich länger nicht mehr einen Chi-Quadrat-Test durchgeführt habe. Hinzu kommt wie üblich das Risiko der falschen Übertragung der Zahlen. Ich empfehle dem interessierten Leser daher, die Rechnung noch einmal selbst durchzuführen.

Auch muss man die Benfordanalyse mit Vorsicht genießen, wenn es um Wahlergebnisse geht, da die Grundgesamtheit, also Wahlkreisgrößen und ihre Zuschnitte meist ebenfalls nicht allzu natürlich entstehen, sondern es sich dabei in den Hinterzimmern der Politik um einen heißen Zankapfel handelt. In den USA gibt es sogar einen Begriff dafür: Gerrymandering. Daher bitte Vorsicht walten lassen.

Wie im Teaser erklärt geht es beim Benfordschen Gesetz darum, dass die Zahlen 1-9 als erste Ziffer bei den einzelnen Zahlen im Datensatz in einer bestimmten Weise verteilt sein müssen. Als Beispiel dazu kann ein Datensatz beispielsweise so aussehen: „123, 9342, 99, 21, 552“. Daraus ergibt sich, dass die Zahlen eins, zwei und fünf jeweils einmal vorkommen als erste Ziffer und die Zahl neun zwei Mal.

Das ist noch nicht unnatürlich als Verteilung, beziehungsweise, man kann darüber noch keine Aussage treffen, da der Datensatz lediglich fünf Zahlen enthält. Die Mindestgröße liegt bei etwa 30 Zahlen, ab der man eine statistische Aussage treffen kann. Und auch dann ist es nicht zwingend so, dass ein Datensatz unnatürlich entstanden ist, falls er zu weit vom erwartbaren Ergebnis abweicht. Vielmehr sind es Wahrscheinlichkeiten, um die es geht, also wie wahrscheinlich es war, dass jemand möglicherweise seine Finger im Spiel hatte auch wenn dies nicht vorgesehen war.



Die Bayerische Landtagswahl analysiert



Der von mir angesehene Datensatz stammt direkt vom Landeswahlleiter Bayerns („Die Ergebnisse der Landtagswahl für die Stimmkreise Bayerns“), er dürfte also an sich zuverlässig sein. Für die Analyse herausgesucht habe ich mir aus dem Datensatz die 2018er Zahlen aller Parteien zu Erst- und Zweitstimme, sowie die Anzahl der Wahlberechtigten und der abgegebenen Stimmen aufgeteilt in gültig und ungültig.Diese Werte gibt es in der Tabelle für jede „Regionaleinheit“, was sich vermutlich übersetzen lässt mit „Wahlkreis“. Insgesamt beruht die Analyse damit auf 4.791 Zahlen (alle Parteien x alle Wahlkreise + Wahlaufkommen), die Resultate der Analyse sind angesichts der Größe des Datensatzes also entsprechend robust.

Die herausgesuchten Zahlen und die Analyse dazu habe ich in eine ODS/Excel Tabelle zusammengefasst, die sich zur Begutachtung hier herunterladen lässt.

Weil ich mir sicher gehen wollte habe ich die erste und die zweite Stelle der Zahlen im Datensatz analysiert. Hier die Ergebnisse dazu:

EW=Erwartungswert

Hier die beiden Diagramme mit den tatsächlichen Werten im Vergleich zu den Erwartungswerten für Stelle eins und zwei:
 


Man sieht vor allem an der ersten Stelle schon vom Augenschein her, dass die höheren Zahlen viel zu oft vorkommen und dies zulasten der Zahlen 2-4. Angesichts der großen Zahlenbasis ist das mit Zufall kaum noch zu erklären. Die Zahlen eins und fünf dagegen liegen fast auf dem Erwartungswert, wobei insbesondere die Erwartungstreue bei der eins ein gutes Zeichen für eine natürliche Verteilung ist.

Die entscheidende Frage nun ist, ob die beiden in der obigen Ergebnistabelle mit gelb unterlegten Werte innerhalb oder außerhalb der erlaubten Abweichung für Zufall liegen. Dafür ist diese Chi-Quadrat-Verteilungstabelle wichtig. Das „α-Niveau“ in unserem Fall liegt bei 5% für statistische Signifikanz, relevant ist also die dritte Spalte von links mit dem Kopfwert von 0,950. Bei den Freiheitsgraden wiederum (Spalte ganz links) müssen wir uns bei der ersten Stelle an die Zahl vier halten und an die Zahl fünf direkt darunter für die zweite Stelle.


Für die Interpretation muss man das ganze so verstehen, als dass falls der ermittelte Chi-Quadrat-Wert niedriger ist als der jeweilige Wert in der Verteilungstabelle, dann handelt es sich beim untersuchten Datensatz sehr wahrscheinlich um eine natürliche Verteilung. Falls er darüber liegt und je deutlicher er darüber liegt, desto unwahrscheinlicher ist es, dass eine natürliche Verteilung vorliegt.

Hier die ermittelten Zahlen im Direktvergleich mit den Werten aus der Chi-Quadrat-Verteilungstabelle:

 

Fazit



Die von mir ermittelten Ergebnisse sind an Deutlichkeit nicht zu überbieten. Selbst wenn man das Signifikanzniveau auf 99,9% ändert (oder sich etwas Freiheit bei den Freiheitsgraden erlaubt), so ist es quasi ausgeschlossen, dass der zugrunde liegende Datensatz in einer natürlichen Weise - also ohne absichtliche Einmischung von außen - zustande kam. Insbesondere die Verteilung der Zahlen bei der ersten Stelle zeigen, dass etwas nicht mit rechten Dingen zugegangen sein muss.

Geht man davon aus, dass ich hier sowohl beim Zusammenstellen des Datensatzes nichts falsch gemacht habe und auch die Rechnung stimmt, dann kann man nur noch davon ausgehen, dass es bei der Landtagswahl in Bayern 2018 zu massiven Wahlfälschungen kam.

Als guter Bürger hoffe ich natürlich auf einen entscheidenden Fehler auf meiner Seite, empfehle den Parteien auf der Verliererseite der Wahl aber dringendst, bei den vorliegenden Wahlergebnissen selbst einmal den Benfordanalyse durchzuführen.


PS: Inzwischen habe ich die Wahlergebnisse in einem zweiten Artikel noch eine etwas eingehender analysiert.

Keine Kommentare:

Kommentar veröffentlichen

Blogverzeichnis - Bloggerei.de