Frühwarnung weiter denken: Errichtung einer digitalen Vorhersageplattform

16. März 2017 · Jens Stappenbeck

Für eine effektivere Prävention muss die Frühwarnpraxis in Deutschland maßgeblich überarbeitet werden. Mitarbeiter von NGOs, Forschungsinstituten und Ministerien könnten sich hierfür in einem digitalen Expert Opinion Pool zusammenfinden. Gebündelte Risikoanalysen sind statistisch aussagekräftiger. Ihre Auswertung könnte zudem einen bislang ungekannten Lern- und Austauschprozess bewirken.

In Deutschland herrscht traditionell große Skepsis gegenüber Frühwarnsystemen wie statistischen Risikoanalysen oder Big Data-Projekten. Informationen gäbe es zur Genüge. Woran es mangelt, sei der politische Wille zum Handeln, so die gängige Aussage. Ein gern genanntes Beispiel für eine Fülle an Informationen über drohende massive Gewalttaten ist etwa der Völkermord in Ruanda, wo vom Personal vor Ort verfasste Warnungen nicht weitergeleitet oder im Auswärtigen Amt zumindest nicht ausreichend berücksichtigt wurden. Auch vor dem Völkermord in Srebrenica wurde zumindest vor einem bevorstehenden Angriff gewarnt. Über gezielte Angriffe auf Zivilisten in der Region wurde im Vorfeld nicht zuletzt auch durch die Übergriffe auf UN-Soldaten ausgiebig berichtet.

Wenn sich in Deutschland überhaupt mit Frühwarnung beschäftigt wird, wird deshalb am ehesten die Schnittstelle zwischen „Early Warning“ und „Early Action“ adressiert, etwa im vergangenen Jahr bei einer Veranstaltungsreihe des Auswärtigen Amtes und der International Crisis Group. Bei den Diskussionen geht es im Rahmen institutioneller Ausgestaltungsmöglichkeiten überwiegend darum, wie bestehende qualitative Analysen und Lagebewertungen möglichst effektiv weitergereicht werden können. Ein Bedarf für zusätzliche Informationen oder gar Frühwarnsysteme wird überwiegend nicht gesehen.

Zu Unrecht. Die gegenwärtige Frühwarnpraxis ist optimierungswürdig. Sie wird der hohen Verantwortung die ihr obliegt, nämlich eine verlässliche Grundlage für folgenreiche politische Entscheidungen zu liefern, in der Fülle nicht gerecht. Wenn die Entwicklung neuer Leitlinien der Bundesregierung für Krisenengagement und Friedensförderung zu einer größeren oder zumindest kohärenteren Rolle Deutschlands im Bereich der Prävention führen soll, so ist eine Neustrukturierung der Frühwarnpraxis mit entscheidend. Vorhersageplattformen, wie sie vom US-amerikanischen Office of the Director of National Intelligence im Rahmen der Intelligence Advanced Research Projects Activity (IARPA) geschaffen wurden, ergeben auch für die zahlreichen deutschen Organisationen Sinn, die durchaus mit erheblichen Analyseaufwand, großer Genauigkeit und Umsicht arbeiten. Sie reduzieren die Fehleranfälligkeit, ermöglichen einen effektiveren und unmittelbaren Informationsaustausch und verleihen den Prognosen in ihrer Kombination erheblich mehr Gewicht. Zunächst gilt es dafür aber mit einigen gängigen Missverständnissen aufzuräumen und bestehende Herausforderungen herauszuarbeiten.

Der Trugschluss ausreichender Information

Bei der deutschen Diskussion über Frühwarnung wird immer wieder allzu leicht übersehen, dass Wirkungszusammenhänge bei der nachträglichen Analyse von Konflikten ungleich evidenter erscheinen, als es im Vorfeld plausibel anzunehmen gewesen wäre. Wie sich für Ruanda und Srebrenica retroperspektiv leicht Indikatoren und plausible Wirkungszusammenhänge ausfindig machen lassen und es offensichtlich ist, dass präventive Maßnahmen versäumt wurden, so ist dies auch beim Arabischen Frühling der Fall. Dennoch trafen die Protestwelle und die gewaltsamen Umstürze in der arabischen Welt nicht nur die Diktatoren vor Ort, sondern auch die westliche Öffentlichkeit und Geheimdienste unvorbereitet.

Zum einen werden wir von Ereignissen also ständig überrascht, trotz aller Fortschritte in der Informationsbeschaffung und der Forschung zu Konfliktentwicklungen. Zum anderen wird tagtäglich eine Flut unpräziser Warnungen publiziert, die schlicht nicht sinnvoll zu sichten oder auszuwerten ist. Allein die Tatsache, dass sich im Nachhinein einzelne zutreffende Warnungen und Wirkungsfaktoren mit Leichtigkeit ausfindig machen lassen, bedeutet noch nicht, dass es im Vorfeld plausibel gewesen wäre, gerade diesen Warnungen zu folgen.

Es gibt eine hohe Hemmschwelle zur Prävention

Wäre die deutsche Außenpolitik mit unendlichen Ressourcen ausgestattet, so wäre eine Überzahl an nicht-zutreffenden Warnungen unproblematisch. Insofern Prävention sich konsequent am „do no harm“-Prinzip orientieren würde, gäbe es eine „falsche“ Prävention in diesem Sinne nicht. Die deutsche Außenpolitik verfügt aber nicht über unendliche, sondern sehr beschränkte Ressourcen und die Aus- und Nebenwirkungen von präventivem Handeln sind nur sehr schwierig kalkulierbar. Prävention ist und bleibt deshalb mit hohen Kosten, Risiken und immenser Unsicherheit über Wirkungsprozesse verbunden. Ihr Erfolg ist in der Regel zudem nur schwer nachweisbar, ihr Scheitern dafür umso offensichtlicher.

Für politische Entscheidungsträger ist es deshalb nicht immer intuitiv oder sofort einleuchtend, weshalb Mittel unter derartig unsicheren Bedingungen investiert werden oder gar von der Nothilfe für bereits vorliegende Krisen, die medial aufgrund der beobachtbaren Gewalttaten viel präsenter sind, abgezogen werden sollten. In der Praxis besteht daher trotz aller politischen Bekenntnisse eine hohe Hemmschwelle zur substanziellen Prävention: Wirkungszusammenhänge sind schlicht nicht ausreichend sichtbar und selbst der optimale Einsatz der zur Verfügung stehenden Mittel sichert keinen Erfolg.

Aufgabe der Frühwarnung ist nicht nur Sammeln, sondern Ordnen, Bewerten, Prüfen

Aufgabe der Frühwarnung ist es, die Unsicherheit über künftige Entwicklungen so weit wie möglich zu reduzieren und Handlungsoptionen aufzuzeigen, um eine Eskalation zu verhindern. Der Nutzen von Frühwarnsystemen liegt angesichts der zahlreichen öffentlich verfügbaren Berichte nicht allein in der Sammlung von Informationen, sondern vielmehr in ihrer Ordnung, Bewertung und fortwährend kritischen Überprüfung. Sie können klassische Analysen und politische Debatten nicht ersetzen, aber dafür sorgen, dass die letztlich politische Schnittstelle zwischen Early Warning und Early Action mit besseren Argumenten und einer systematischeren Grundlage ausgestattet wird.

Der Frühwarnung kommt damit eine erhebliche Verantwortung zu: Entscheidungen, die auf ihrer Basis getroffen werden, können schwerwiegend sein und Sanktionen oder gar Interventionen zur Folge haben, selbst wenn dies nicht im Interesse der Verfasserin oder des Verfassers gelegen haben mag. Sie einer selbstkritischen Analyse zu unterziehen und auf eine so solide Basis wie möglich zu stellen, ist nicht nur angemessen, sondern notwendig.

Expertenanalysen genauso treffsicher wie Darts spielende Schimpansen

Die selbstkritische Analyse aber bleibt in Deutschland weitgehend aus: Ausgesprochene Warnungen werden im Nachhinein nicht in Bezug auf ihre Treffsicherheit ausgewertet. Insbesondere die IARPA-Forschungsprojekte kamen zumindest für den US-amerikanischen Raum jedoch zu dem Schluss, dass es um die Treffsicherheit äußerst schlecht bestellt ist. Die meisten Politikexperten schneiden bei ihren Wahrscheinlichkeitseinschätzungen schlechter ab als vergleichsweise simple Algorithmen. Viele Experten waren in ihrer Risikoeinschätzung nicht besser als “dart-throwing chimps” oder schlichte Münzwurfe. Würden die im Rahmen von Leitartikeln und Analysen oder gar Talkshows in Deutschland abgegebenen Prognosen einmal systematisch ausgewertet, spricht wenig dafür, dass das Ergebnis angenehmer wäre.

Aus moralisch durchaus plausiblen Gründen versuchen NGOs regelmäßig die größtmögliche Aufmerksamkeit für eine Risikosituation zu schaffen. Die Dringlichkeit politischen Handelns zu vermitteln, gelingt angesichts der zahlreichen bereits ausgebrochenen Notstände und der vielfältigen Krisen schwer genug. Ein Rückgriff auf möglichst eindrückliche, zugespitzte und emotionale Berichte liegt entsprechend nahe. Nicht immer muss die Lücke zwischen aktivierender Darstellung und sinnvoller Entscheidungsgrundlage so hoch sein, wie bei der Kony2012-Kampagne. Insgesamt besteht aber ein Anreiz zur simplifizierenden Emotionalisierung und zur „threat inflation“, die verlässlichen Analysen und Warnungen entgegenlaufen.

Besonders aktuell lässt sich diese Problematik anhand der sehr wahrscheinlich unzutreffenden Warnungen vor einem Völkermord in Burundi illustrieren. Ein ausführlicher NGO-Report resümierte im November 2016 nach einer sehr intensiven Analyse: “All the criteria and conditions for the perpetration of genocide are in place.” Gregory Stanton, der Gründer von Genocide Watch, warnte im März 2016, dass die burundische Regierung einen Genozid vorbereite und die UN zu spät sein könnte, um ihn zu verhindern. Doch was bedeutet das? Ist das Risiko damit sehr hoch oder liegen nur Bedingungen vor? Wann solle aus einer Risikobestimmung eine Frühwarnung resultieren? Wieviel Zeit verbleibt für eine Reaktion?

Analysen enthalten sich hier regelmäßig eines Urteils. Vor was genau dann aber gewarnt wird oder welche Schritte eingeleitet werden sollten, bleibt unklar. Das trifft auch auf den Genocide Alert Monitor, der Risikoanalysen des Early Warning Projects und des R2P Monitors zu Massenverbrechen kombiniert, zu.

Adressatenorientierte Warnung

Solange eine Vielzahl nicht-zutreffender oder schlicht nicht sinnvoll überprüfbarer Warnungen ausgesprochen wird, ermöglicht dies Menschenrechtsorganisationen nachträglich den Finger zu erheben und auf verpasste Handlungschancen zu verweisen. Wie politische Entscheidungsträger aber im Vorfeld einschätzen können sollen, welche einzelne Warnung dann aber wirklich zutrifft, ist schlicht unklar. Frühwarnung muss daher adressaten- und anwendungsgerechter ausgerichtet werden: Wenn über Prävention diskutiert wird, so kann dies von Entwicklungszusammenarbeit, über diplomatisches Engagement bis hin zu Sanktionen, Friedensmissionen oder militärischen Interventionen ein sehr großes Feld beinhalten. Selbst Transitional Justice-Maßnahmen würden vom Präventionsbegriff subsumiert, solange vergangene Massenverbrechen einer der aussagekräftigsten Indikatoren für das Risiko von Massenverbrechen bleiben. Die Frühwarnung muss die verschiedenen Vorlaufzeiten der Optionen präventiven Handelns im Blick haben. Ob Massenverbrechen oder Bürgerkriege innerhalb weniger Monate oder in 3-5 Jahren drohen, macht für die Wahl der Mittel offensichtlich Unterschiede. Risiken müssen für unterschiedliche Zeithorizonte präzise bestimmt und plausible Szenarien entwickeln werden können. Dabei dürfen Begriffe wie Genozid und Politizid oder Massenverbrechen und Bürgerkriege nicht achtlos durcheinander gewürfelt werden. Nur bei klaren Begrifflichkeiten lassen sich Potenziale frühzeitiger und struktureller Prävention sowie mittel- und kurzfristiger Maßnahmen effektiv nutzen.

Neustrukturierung der Frühwarnung

Eine Neuorientierung und größere Koordination der Frühwarnaktivitäten deutscher NGOs könnte etwa bedeuten, relevante Zeithorizonte zu identifizieren und für diese separate Risikoanalysen mit jeweils optimierter Methodik anzufertigen. Beispiele dafür lassen sich etwa in FAST von Swiss Peace finden, das leider eingestellt wurde. Um die vagen Formulierungen qualitativer Berichte zu spezifizieren, schlug Sherman Kent bereits vor über 50 Jahren die Übertragung sprachlicher Risikoeinschätzungen in Prozentwerte vor. Für die Reduzierung von Missverständnissen wäre zumindest ein daran angelehnten standardisierten Katalogs für „Words of Estimative Probability“ auch für den deutschen Raum hilfreich. Auch wenn Kent mit seinem Vorschlag damals scheiterte: Im Rahmen der Vorhersageprojekte des US-amerikanischen Office of the Director auf National Intelligence sind sogar ausschließliche Prozentwertangaben zur Risikoeinschätzung inzwischen etabliert. Mit dem Review 2014-Prozess setzte zumindest im Auswärtigen Amt ein Umdenken ein, das unter anderem in der Gründung der Abteilung S für Krisenprävention, Stabilisierung und Konfliktnachsorge mündete. Das neu eingerichtete Referat S04 arbeitet momentan erstmals an einem eigenen Big-Data-Projekt für politische Gewalt. Es soll die Überwachung von Risikosituationen auf eine systematischere Grundlage stellen und unter anderem klassische Analysen und Geheimdienstberichte ergänzen, wie es in den USA längst Standard ist.

Trotz aller Fortschritte von Big Data Projekten wie EMBERS, die etwa Nachrichten und Social Media – Aktivitäten unmittelbar auswerten, kann sich ihre Anwendbarkeit von Land zu Land nicht zuletzt aufgrund unterschiedlicher Sprachmuster massiv unterscheiden. Wie auch bei statistischen Risikoanalysen bleiben eine gesunde Skepsis und die Gegenprüfung durch andere Vorhersagemethoden und Modelle weiterhin nötig. Gerade hierfür bietet es sich an, nicht-staatliche Akteure in größerem Rahmen mit einzubeziehen und dafür auf digitale Vorhersageplattformen zurückzugreifen, wie sie im Rahmen des US-amerikanischen IARPA entwickelt wurden.

„Expert Opinion Pools“ in Deutschland einführen

Nach den Entwicklungen im Auswärtigen Amt ist es auch für NGOs an der Zeit, die eigene Frühwarnpraxis zu reflektieren und zu optimieren. Statt die Schuld für verpasste Gelegenheiten allzu schnell auf einen vermeintlich mangelnden politischen Willen abzuwälzen, lohnt es sich, einen selbstkritischen Blick auf die Analysen selbst zu werfen und ihre Treffsicherheit und Plausibilität nachweislich zu erhöhen. Die Beteiligung an einer digitalen Vorhersageplattform, die gängige qualitative Analysen mit quantitativen Prognosen und Auswertungsverfahren verbindet, könnte einen bislang ungekannten Austausch zwischen deutschsprachigen Frühwarnakteuren ermöglichen und dem Auswärtigen Amt umfangreiche, aber extrem strukturierte, Risikoanalysen liefern. Im Rahmen des Forschungsprogrammes des Office of the Director of National Intelligence wurden mehrere derartige Vorhersageplattformen entwickelt. Zu den bekanntesten zählt das Good Judgment Project, das tausenden Teilnehmern Fragen zu geopolitischen Entwicklungen stellte. Seit über einem Jahr können Teilnehmer Fragen wie „Will Salva Kiir cease to be President of South Sudan before 1 December 2017?“ oder “Will there be a new episode of mass killing in Burundi before 1 January 2017?“ auch in der öffentlichen Version des Good Judgment Open mit Prozentwerten von 0-100% vorhersagen, qualitative Begründungen abgeben und etwa per Link auf Studien und Artikel verweisen. Sie können einander folgen und Vorhersagen anderer empfehlen und kommentieren. Die gebündelten Risikoanalysen sind nachweislich treffsicherer und die daraus entstehende Diskussion führt nachweislich zu einer Verbesserung der Treffsicherheit; wie etwa auch diverse teilweise öffentlich verfügbaren Leitfäden und Trainingsmodule.

Auch andere Vorhersageplattformen, wie der Expert Opinion Pool des U.S. Holocaust Memorial Museums, SciCast, Almanis und PredictIt, kombinieren Möglichkeiten eines klassischen Forums für die qualitative Begründung und Angabe von Links zu Studien oder Artikeln mit der notwendigen Abgabe einer Vorhersage in Form eines Prozentwertes. Für NGOs hat dies den Vorteil, dass ihrerseits kaum zusätzliche Arbeit anfällt: Die klassischen qualitativen Berichte müssen lediglich zusätzlich im Rahmen der Plattform mit einer Prozentangabe von 0-100% versehen werden. Dies ermöglicht ihre unmittelbare Erfassung und die Bildung von Durchschnittswerten, die in ihrer Summe nachweislich verlässlicher sind als Einzelbewertungen, sowie ihre nachträgliche Auswertung. Die Risikoeinschätzungen können jederzeit verändert werden, werden aber immer gespeichert. Das erlaubt es, nach Auflösung einer Frage, die Treffsicherheit exakt zu ermitteln. Über einen derartigen Feedbackmechanismus kann ein Lernprozess bewirkt werden. Was ist plausibel vorhersagbar und zu welchem Zeitraum? Warum sind manche Teilnehmer besser als andere? Welche Berichte trafen zu und welche Faktoren haben eine Rolle gespielt?

Eine solche Vorhersageplattform benötigt ein neutrales Team, das gegebenenfalls im Auftrag des Auswärtigen Amtes oder von NGOs vorgeschlagene und für die deutsche Außenpolitik relevante, klar überprüfbare Fragen stellt, d.h. für die Vorhersage und Auflösung wesentliche Begrifflichkeiten definiert und vermittelt, und eine Auswertung der Vorhersagen vornimmt. Ein weiterer Nebeneffekt wäre also die im Zuge derartiger Projekte entstehende Debatte darüber, was es bedeutet, Massenverbrechen oder Bürgerkriege vorherzusagen und wo definitorische Lücken bestehen, die etwa von der Friedens- und Konfliktforschung praxisorientiert aufgearbeitet werden müssen. Die öffentlich verfügbaren Plattformen reichen dafür nicht aus. Die breite öffentliche Beteiligung ist bei sehr spezifischen Fragen zu politischer Gewalt, die ein hohes Maß an Sachverständnis erfordern, eher problematisch: Die vom Early Warning Project im vergangenen Jahr erstmals geförderte Challenge im Good Judgment Open zur Vorhersage von Massenverbrechen schien in Fällen wie Nigeria oder Burundi unter massiven Verständnisproblemen zu leiden.

Wäre das Auswärtige Amt bereit, einen derartigen Schritt zu finanzieren, könnte entweder im Rahmen bestehender Plattformen wie dem Good Judgment Project ein nicht-öffentlicher Bereich eingerichtet werden, wie er bereits für die USA besteht, oder eine neue Plattform in Auftrag gegeben werden. Es wäre eine sinnvolle Investition des Auswärtigen Amtes, Politikberatungen oder Forschungsinstitute mit der Leitung zu betreuen und nicht-staatliche Akteure zu ermutigen, an einem solchen Experiment teilzunehmen. Die Ergebnisse einer solchen digitalen Vorhersageplattform ließen sich anschließend oder sogar parallel innerhalb des Auswärtigen Amtes mit weiteren Frühwarnmethoden und Analysen, wie dem Big Data Projekt, zusammenführen. Gemessen an der enormen Verantwortung, die der Frühwarnung obliegt, wäre dies einen Versuch allemal wert.

Early Action Atrocity Prevention

Jens Stappenbeck

Jens Stappenbeck ist Geschäftsführer von Genocide Alert und wissenschaftlicher Mitarbeiter am Leibniz-Institut Hessische Stiftung Friedens- und Konfliktforschung (HSFK), wo er zu Möglichkeiten der Risikoanalyse und Frühwarnung forscht. Er arbeitet außerdem als Superforecaster/Berater bei Good Judgement Inc.