Analyse: Die Ausgaben der Bundesregierung im Benford Test (Oh, Oh.. Oh?)

Wenn Sie nun denken: „Hätte er keine Unregelmäßigkeiten gefunden, dann gäbe es diesen Artikel wahrscheinlich nicht,“ dann denken Sie richtig. Nachdem ich in den letzten Tagen erst die Zahlen zur Bayernwahl einem Benford Test unterzogen habe und mir danach die Kriminalitätsstsatistik des BKA der letzten beiden Jahre vorgenommen habe, da dachte ich mir, warum nicht auch die Zahlen der Bundesregierung durchtesten? Und tatsächlich, da schlummert etwas in den Budgetposten des Bundes, das nicht so recht passen will.

Über den Benfordtest und die verwendeten Zahlen

Auch wenn ich es in den anderen Artikeln bereits erklärt habe, hier noch einmal in Kürze, worum es beim Benfordtest beziehungsweise dem BenfordschenGesetz geht:

In großen Datensätzen müssen die Zahlen laut dem Benfordschen Gesetz einer bestimmten Verteilung folgen, um sie als „natürlich“ oder „aus Zufall“ entstanden klassifizieren zu können. Im genauen geht dabei um das relative Vorkommen der Zahlen 0-9 als Ziffern der jeweiligen Zahlen im Datensatz. Kommt beispielsweise die 1 als erste Ziffer bei den Zahlen zu häufig oder zu selten vor, dann ist das nicht mehr mit Zufall zu erklären. Selbiges gilt für die relative Verteilung der zweiten Ziffern und so weiter.

„Unnatürlich“ heißt dabei, dass jemand die Zahlen mit einem bestimmten Interesse von Hand abgeändert hat, wie etwa bei Wahlergebnissen, wenn jemand nachträglich die Zahlen zu seinen Gunsten verändert. Eine andere Anwendung des Benfordtests, die auch steuerliche Relevanz hat, ist die Untersuchung der Zahlen in Unternehmensbilanzen. Falls die Verteilung der Ziffern bei diesen jenseits der Grenze liegt, um noch als „zufällig verteilt“ durchgehen zu können, dann bekommt das Unternehmen und dessen Bilanzabteilung Probleme, da der Staat dann von Bilanzbetrug ausgeht.

Das Anlegen der Benfordverteilung an die Ausgaben des Bundes sind damit sehr relevant, da es sich dabei ebenfalls um eine Bilanz handelt, wenn auch um keine unternehmerische oder steuerrechtliche.

Entnommen habe ich die Augabenposten des Bundes von der Downloadseite von Bundeshaushalt.de, wo die Zahlen des letzten Jahrzehnts zum Herunterladen bereit stehen. Untersucht habe ich die Zahlen ab 2012 und bis 2017, allerdings ohne das Jahr 2015, da es diese nicht im Excelformat gab.

Wer sich die Zahlen selbst herunterladen will, der wird dort neben den Tabellen mit den effektiven Ausgaben auch die Planbudgets finden. Die meisten Dateien mit den tatsächlichen Ausgaben sind dabei mit einem „IST“ versehen, die auch ich verwendet habe. Wer sich die Mühe nicht machen will und mir vertraut, der findet den von mir aufbereiteten Datensatz hier als SQL Datei zum herunterladen.

Der Benfordtest für die ersten vier Ziffern mit allen Zahlen

Leider ist mir nicht bekannt, ob die Benfordverteilung die Vermischung positiver und negativer Zahlen erlaubt, da einige Posten in der Auflistung (ca. 1%) negativ sind, es sich also um Einnahmen handelt. Da es nur wenige sind und auch bei anderen Benfordverteilungen positive und negative Zahlen vorkommen (z.B. physikalische Konstanten) habe ich sie mit inbegriffen in der Analyse.

Hier die Ergebnisse, wobei alle Werte für das Chi-Quadrat mit gelb unterlegt sind, wenn sie über dem erlaubten Wert liegen (1. Ziffer > 9,49; 2.-4. Ziffer > 11,07):

Der Benfordtest mit allen Zahlen

Die grau unterlegten Werte entsprechen jeweils dem Ergebnis für die erste Ziffer in dem jeweiligen Jahr, wobei sie in allen Fällen deutlich unterhalb der Grenze von 9,49 liegen. Eine gute Nachricht, die Bundesregierung scheint ihre Bücher nicht auf „legal“ zu kochen.

Wie man aber auch sieht sind die nachfolgenden Ziffern fast ausnahmslos gelb und liegen teilweise um das Mehrfache über dem erlaubten Grenzwert. Leider weiß ich nicht, wie man statistisch damit umgeht, ob also eine „unnatürliche Verteilung“ vorliegt, wenn die erste Ziffer in Ordnung ist, die nachfolgenden dagegen starke Abweichungen aufweisen oder ob das keinen Einfluss hat.

Hinsichtlich der steuerlichen Prüfung auf Einhaltung der Benfordverteilung ist mir ebenfalls unbekannt, ob die Finanzämter lediglich die erste Ziffer analysieren oder auch die zweite oder weitere. Vielleicht weiß das ja ein Leser und kann den entscheidenden Hinweis geben.

Ich fand die Ergebnisse jedenfalls überaus seltsam und hätte erwartet, dass alle Ziffern im Bereich des zulässigen liegen und nicht nur die erste. Mein (leicht schwammiges) Gefühl für Zahlen sagt mir auch, dass dem eigentlich so sein sollte.

Daraufhin habe ich mir die Datensätze noch einmal angesehen und sah, dass es einige Ausgaben gibt, die mit mehreren glatten Nullen enden. Offenbar, so dachte ich mir, sind da einige Budgetposten dabei, die eigentlich keine sind, sondern lediglich Planzahlen für externe Budgets, die noch nicht in Ausgaben umgewandelt wurden. Es macht sehr viel Sinn diese herauszurechnen, da sie das Ergebnis ab der zweiten Ziffer verzerren.

Der Benfordtest für die ersten vier Ziffern mit allen Zahlen außer jenen, die auf -0000 oder -00000 enden

Die folgende Tabelle enthält nun die selbe Analyse wie zuvor, allerdings fehlen in den Datensätzen für die einzelnen Jahre jeweils in etwa 220 Werte. Hier das Ergebnis:

Der Benfordtest mit allen Zahlen außer den glatten ab 5-stellig

Das sieht schon einmal viel besser aus. Während in der ersten Version noch 13 der 20 Werte eine nicht mit Zufall erklärbare Verteilung aufwiesen, so sind es jetzt noch sieben. Allerdings sind das noch immer sieben zu viel und so habe ich mich dazu entschlossen, eine weitere Analyserunde durchzuführen und auch alle vollen Tausender herausgenommen.

Der Benfordtest für die ersten vier Ziffern mit allen Zahlen außer jenen, die auf -000, -0000 oder -00000 enden

In dieser Analyse fehlen in jedem Satz jeweils ungefähr 600 Zahlen, wir befinden uns also noch immer im Bereich für robuste Aussagen. Hier die Ergebnisse:

Der Benfordtest mit allen Zahlen außer den glatten ab 4-stellig

Das Ergebnis wird wieder schlechter. Entweder fehlen nun zu viele Zahlen im Datensatz oder aber es gibt darin noch immer zu viele Planzahlen und man müsste weitere Werte rausstreichen.

Wäre es aber ersteres, dann müsste man sich fragen, warum der Datensatz mit maximaler Größe eine geringere natürliche Integrität aufweist als jener mit dem ersten Filter, sowie warum sich ausgerechnet die glatten Zahlen im sechsstelligen Bereich positiv auswirken, während die kleineren glatten Zahlen das Gegenteil bewirken. Hinzu kommt, dass die weggefallenen Zahlen nicht mehr als zehn Prozent ausmachen. Eigentlich dürfte das den einzelnen Datensätzen angesichts ihrer Gesamtgröße nicht so viel ausmachen.

Daher habe ich die Schere noch einmal angesetzt und sukzessive alle glatten Zahlen herausgenommen bis runter zu den Zweistelligen. Eine Tabelle dafür ist aber nicht notwendig, da sich das Ergebnis nicht mehr verbessert hat. Die jeweiligen Chi-Quadrat Werte liegen jeweils bei anderen Ziffern über dem Grenzwert, pro Filter aber ist es immer mindestens die Hälfte, die zu stark vom Erwartungswert abweicht.

Die große Frage lautet: Was stimmt hier nicht, meine Rechnung oder die offiziellen Zahlen der Bundesregierung?

Beim Herumbasteln an der Analyse kam in mir ein Verdacht auf. Was ist, wenn die Bundesregierung um die Benfordverteilung weiß und nachträglich, wenn die fertigen Zahlen bereits stehen, ein Programm darüber laufen lässt, um festzustellen, wo sie mit welchen Zahlen nachbessern muss, um bei der ersten Ziffer unter den maximal erlaubten Grenzwert zu kommen.

Wie die Analyse zeigt gibt es einige Posten für externe Budgets, die nach Gusto nachträglich so hingepfuscht werden können, dass es am Ende aussieht als hätte niemand die Bilanz manipuliert.

Warum sie sich dabei nur auf die erste Ziffer beschränken kann ich allerdings nicht beurteilen. Möglich ist, dass es zu komplex wird, auch die nachrangigen Ziffern auf „zufällig entstanden“ zu bürsten. Alternativ könnte es auch sein, dass in der Regel nur die erste Ziffer analysiert wird und es daher nicht für notwendig erachtet wird, weitere die Verteilung der hinteren Ziffern ebenfalls zu korrigieren.

Wie oben geschrieben könnte es nicht zuletzt es auch sein, dass wirklich nur die Verteilung an der ersten Ziffer relevant ist und sobald diese unterhalb der Schwelle liegt, dann können die nachfolgenden Ziffern beliebig verteilt sein. Ich kann nicht beurteilen, ob dem auch so ist, mein Gefühl aber sagt mir, dass der Datensatz bei allen Ziffern im grünen Bereich liegen muss.

Der Vollständigkeit halber sollte ich noch erwähnen, dass die Schwachstelle auch bei mir liegen könnte und meinem mangelnden Talent für statistische Analysen oder sonstige Übertragungs- oder Programmierfehler.

Vielleicht sollte mal ein Experte in der Materie über die Zahlen gehen und den Benfordtest anwenden. Anhaltspunkte für Unregelmäßigkeiten gibt es jenseits der ersten Ziffer einige.