Offene Machine Learning Modelle in der Verwaltung
Ein mehrstufiger Vorschlag für vollständige Transparenz beim Einsatz von Machine Learning Algorithmen im öffentlichen Sektor
Der Bedarf nach rechtlichen und ethischen Leitplanken im Umgang mit Machine Learning (ML) Algorithmen wächst bei staatlichen Akteuren rasant. Diese haben zunehmend nicht nur die Regulierung von Unternehmen im Blick, sondern sind auch selbst Technologienutzende geworden. Das Gebot nach Transparenz findet man in allen Leitlinien und Studien dazu, da es für das Vertrauen in den öffentlichen Sektor zentral ist. Das Vertrauen beruht auf Grundpfeilern wie Nichtdiskriminierung, Legalität und Legitimität des staatlichen Handelns. Doch fehlen konkrete Vorgaben, wie eine solche Transparenz genau erreicht werden kann. Folgend wird ein mehrstufiges praxisnahes Konzept vorgeschlagen1.
Dieser Beitrag lehnt sich dabei in theoretischer Hinsicht stark an die Studie «Einsatz Künstlicher Intelligenz in der Verwaltung: rechtliche2 und ethische Fragen»3 an, die eine wichtige Lücke schliesst. Der ethische Teil der Studie behandelt sieben ethische Grundsätze – einer davon ist Transparenz.
Bild: Titelseite der genannten Studie der Uni Basel und von Algorithm Watch Schweiz
Die Studie erwähnt dabei vier unterschiedliche Transparenztheorien4:
- Eine davon ist die Stärkung der kollektiven Autonomie, die für die öffentliche Debatte in demokratischen Prozessen essenziell ist. Das ist auch eine Grundauffassung, die man in Leitlinien der OECD und der Europäischen Kommission findet: Transparenz ermöglicht den Bürger*innen nachzuvollziehen wie «ML-basierte Entscheidungen zustande kommen, um diese anfechten zu können»5. Nachverfolgbarkeit und Erklärbarkeit 6 machen dadurch einen wichtigen Teil der Transparenz aus.
- Transparenz kann auch eine Rolle als «Desinfektionsmittel» haben (Die Studie zitiert dabei Louis Brandeis: «Sonne ist das beste Desinfektionsmittel»7). Wenn ein Prozess offengelegt ist, dann führt dies zu einer Vermeidung von unethischen Verhalten aber auch zu einer generellen Schadensvermeidung durch unbeabsichtigte Elemente.
- Transparenz kann auch zu technologischer Optimierung durch den aktiven Einbezug eines grösseren Netzwerks führen. Experten und Laien können dadurch Verbesserungen vorschlagen.
- Zuletzt kann Transparenz, neben der erstgenannten kollektiven Autonomie, auch die individuelle Autonomie stärken, da das Individuum durch Information eine fundierte Entscheidung treffen kann.
Berechtigt könnte man kritisieren, dass ein Blick auf die Transparenz allein andere wichtige Grundprinzipien ausser Acht lässt. Ich würde aber behaupten, dass es ohne Transparenz nicht geht: diese ist notwendig aber nicht ausreichend um die ethischen Bedürfnisse abzudecken. Dazu kommt, dass die oben genannten vier Transparenzdimensionen sich stark mit den anderen sechs Grundsätzen der Studie überschneiden. Ohne diese Grundsätze hier im Detail zu beschreiben möchte ich einige Beispiele geben:
- «Schadensvermeidung» und «Benefizienz»: Man kann ein ML-Algorithmus am besten entwickeln, wenn der gesamte Prozess transparent ist. So kann man auch ungewollten Schaden abwenden, da Fehler, Biases u.ä. früh erkannt werden. Die «Möglichkeit, mithilfe von KI-Systemen Gutes zu tun»8, lässt sich mit Transparenz besser bewerkstelligen, da man vor, während und nach der Implementierung überprüfen kann, ob man wirklich Gutes tut.
- «Gerechtigkeit und Fairness»: Je transparenter der gesamte Prozess ist, desto wahrscheinlicher wird es, dass «nur faire und gerechte Datensätze verwendet werden», dass «angemessene Funktionen, Prozesse und analytische Strukturen in die Modellarchitektur aufgenommen werden», dass «das System [keine] diskriminierende Auswirkungen hat», und dass «das System unvoreingenommen implementiert» wird9.
- «Autonomie»: Deckt sich sehr stark sowohl mit der kollektiven wie auch mit der individuellen Autonomie, die oben beschrieben wurde.
- «Kontrolle» und «Rechenschaftspflicht»: Beide instrumentellen und aufsichtsrechtlichen Elemente bedingen, dass man kontrollieren kann und für etwas rechenschaftspflichtig sein kann. Transparenz erscheint mir da wie eine wichtige Voraussetzung dafür.
Wie könnte nun eine praxisnahe Umsetzung aussehen, um die ethischen Erwartungen auch zu erfüllen?
STUFE 1
Die aktuelle Praxis in einigen Ländern stellt die Kommunikation und Offenlegung der verwendeten Algorithmen in den Mittelpunkt. Dabei gibt es zwei Alternativen. Ein technischerer Ansatz in Grossbritannien sieht neu einen «Algorithmic transparency data standard»10 vor, mit welchem man sehr detailliert eine möglichst genaue Dokumentation von im öffentlichen Sektor verwendeten Algorithmen erstellen kann.
Statt eines technischen Zielpublikums lässt sich auch eine grössere Öffentlichkeit erreichen: u.a. Amsterdam und Helsinki haben dies mit einem Register erreicht, in dem jeder Algorithmus in einigen Paragraphen mit Ziel und Zweck erläutert wird11.
Transparenz wird dabei bloss als Kommunikation verstanden. Dabei kann man durchaus auch detailliert erklären, welche Überlegungen und Massnahmen man z.B. gegen Nichtdiskriminierung oder zur Schadensminimisierung durchgeführt hat. Aber es bleibt bei einer Dokumentation, die man nicht nachprüfen oder nachrechnen kann. Nichtsdestotrotz ist es ein absolutes Minimum ein solches Register mit öffentlich zugänglichen Informationen zu haben.
STUFE 2
In einer zweiten Stufe könnte man sowohl Computercode als auch Machine Learning Modelle offenlegen. Das ist zwar eine technische Forderung, aber sie ermöglicht zivilgesellschaftlichen und privaten Akteuren den vollständigen Zugang zum Algorithmus. Und in der Regel dürfte es kein Problem für Verwaltungen darstellen beides zu veröffentlichen.
Die Formel aus dem Modell12 ermöglicht die exakte Nachberechnung eines Resultats: Man setzt die Inputwerte ein, und erhält das berechnete Output des Algorithmus. Ein «Modell» kann man sich auch als eine Datei vorstellen: In der Praxis kann beim Trainieren eines Algorithmus eine Datei abgespeichert werden, die dann zur Berechnung verwendet werden kann. Man könnte diese Datei öffentlich zugänglich machen.
Neben dem offenen Computercode und den offenen Modellen, stellt sich auch die Frage nach offenen Behördendaten. Hier setzt sich in der Verwaltung bereits das Prinzip «open by default» durch, welches besagt, dass alle nicht schützenswerten Daten veröffentlicht werden sollen.
Falls es sich um solche schützenswerten Daten handelt, könnte man drei Sachen andenken. Einerseits kann man mittels Datenschutzverträge in bestimmten vordefinierten Fällen den Zugriff darauf erhalten. Zweitens könnte man in einer «AI Sandbox» oder geschützten Umgebung einen Zugang dazu bekommen, wie das in Grossbritannien, Norwegen und Frankreich gerade versucht wird13. Drittens könnte man einen Beispieldatensatz mit synthetischen Daten mitliefern, so dass zumindest die Schwelle für die Nachvollziehbarkeit möglichst gering ist – aber da ‘Bias’ auch als Muster in den Daten selbst entstehen kann, ist dies nicht die geeignetste Variante.
Bild: CC0 / Pixabay / Elchinator
STUFE 3
Eine weitere Stufe der Transparenz wäre erreicht, wenn der Lebenszyklus eines Algorithmus vollständig erfasst werden würde. Dies bedingt zwei Elemente.
Erstens, und zusätzlich zur Veröffentlichung der Modelle und des Computercodes, stellt sich die Frage nach einer strikten Versionierung. Was bei Computercode geläufig ist, wird in der Industrie auch teilweise bei ML-Modellen angewandt. Denn nur so kann man rückwirkend vollständig nachvollziehen, welcher Algorithmus in welchem Moment verwendet wurde. In der Praxis werden die Modelle häufig aktualisiert oder verändert. So kann diese dynamische Komponente mitberücksichtigt werden.
Zweitens braucht es eine regelmässig stattfindende Kontrolle – ein Monitoring, welches öffentlich ist und mindestens jährlich stattfindet. Ähnlich dem britischen «algorithmic data transparency standard», könnte man sich auch hier eine Art Standardprotokoll überlegen. Dieses Monitoring ermöglicht auch zu erkennen, ob die Ziele und der gewünschte Nutzen erreicht wurden.
STUFE 4
Ein offenes ML-Modell bleibt eine «black box», da man das innere eines komplexen Algorithmus nicht menschlich simpel nachvollziehen kann. Diese Problematik basiert auf «Ockhams Dilemma»: man kann entweder Algorithmen mit sehr genauen Vorhersagen oder menschlich verständliche/interpretierbare Algorithmen haben, aber nicht beides gleichzeitig14. Beispielsweise werden simplere Regressionen in der Wissenschaft verwendet, da dort die Erklärbarkeit und nicht die genauste Vorhersage im Mittelpunkt stehen. Eine weitere Stufe wäre deshalb begleitende simplere Algorithmen (z.B. lineare Modelle oder Ceteris-Paribus Annahmen15) parallel dazu zu trainieren und zu veröffentlichen.
Ein solcher Ansatz wurde im Bundesamt für Statistik im Pilotprojekt Plausi++ versucht: der komplexe Algorithmus war für die genauste Berechnung der Plausibilisierung zuständig, während ein simples Modell eine menschlich verständliche Erklärung für die Entscheidung der Plausibilisierung liefern soll16.
Technisch könnte es sein, dass dies nicht in allen Anwendungsfällen möglich oder zu guten Resultaten führt. Aber selbst bei Bilddaten kann man mit linearen Modellen Erklärungsansätze für die Entscheidungen bekommen: So kann man beispielsweise den Bildabschnitt gezeigt bekommen, der für die Vorhersage am relevantesten war17.
Bild: S.18 aus Schlussbericht Plausi++, Abbildung zeigt Ceteris-Paribus Ansatz, um die berüchtigte black box zu öffnen
Die oben vorgestellten vier Stufen stellen einen neuen praxisnahen Vorschlag für eine vollständige Transparenz dar. Wie oben erwähnt, denke ich, dass Transparenz eine notwendige aber nicht ausreichende Bedingung ist, um die in der Theorie behandelten ethischen Erwägungen ganzheitlich zu erfüllen. Somit müssen zwangsläufig weitere Überlegungen angestellt werden.
Beispielsweise kann Transparenz einen diskriminierenden Effekt eines Algorithmus sichtbar machen, aber dadurch ist die dadurch entstandene Diskriminierung noch nicht beseitigt: – «Diskriminierung kann auch transparent, nachvollziehbar und verstehbar erfolgen»18.
Des Weiteren gibt es Fälle, wo «bias» nicht vermieden werden können19. Prof. Rayid Ghani zeigt beispielsweise an einer Präsentation an der EPFL Anwendungsfälle auf, bei dem ein Algorithmus entweder auf Effizienz, Gleichheit oder Gleichwertigkeit optimiert werden kann - mit unmittelbaren Nachteilen für die jeweils anderen beiden Dimensionen 20.
Ein weiteres Puzzleteilchen, Bild: CC0 / Pixabay / Alexas_Fotos
Ein solches Transparenzverständnis ist in der öffentlichen Verwaltung gerade im Bereich der Datenbewirtschaftung nicht neu: So haben sich offene Behördendaten und Prinzipien wie «open by default» durchgesetzt. Eine vollständige Transparenz im Einsatz von ML-Algorithmen ist somit ein weiteres Puzzleteil in diesem bereits existierenden Selbstverständnis. Das zeugt auch, dass man bestehende Grundprinzipien in der Datenbewirtschaftung auf eine angepasste Weise auch auf Algorithmen anwenden könnte, ohne das Rad neu zu erfinden. Beispielsweise CARE21:
- Collective Benefit: Machine Learning Ansätze müssen einen öffentlichen und öffentlich legitimierten Nutzen haben.
- Authority to Control: Die Stärkung der kollektiven wie auch individuellen Autonomie.
- Responsibility: Verantwortung im Umgang mit den Modellen, Prozessen, Daten.
- Ethics: Schadensvermeidung und Benefizienz im gesamten Lebenszyklus eines Algorithmus.
-
Ich bedanke mich sehr herzlich bei allen Personen, die Feedbacks zu diesem Blogartikel gegeben haben! ↩︎
-
Nachtrag am 20.12.2021 aufgrund von juristisches Feedback zur Präzisierung des Begriffs Transparenz: Juristisch kann hier Transparenz “am ehestens… i.S. des Öffentlichkeitsgesetzes verstanden werden, nämlich dahingehend, dass breite Kreise (Zivilgesellschaft, Medien, Interessierte etc.) Zugang zu den Informationen erhalten. Eine andere Form der Transparenz verlangt das Datenschutzgesetz (nämlich die Transparenz über die Nutzung der eigenen Daten). Und noch einmal etwas anderes ist die Tranparenz i.S. der verfassungsrechtlichen Begründungspflicht (bei staatlichem ADM), welche die grds. Nachvollziehbarkeit einer Entscheidung im Einzelfall fordert”. Vielen Dank an Nadja Braun Binder für diese Präzisierung! ↩︎
-
«Einsatz Künstlicher Intelligenz in der Verwaltung: rechtliche und ethische Fragen», Juristische Fakultät der Universität Basel und Algorithm Watch Schweiz – siehe S. 72 ff. https://www.zh.ch/content/dam/zhweb/bilder-dokumente/themen/politik-staat/kanton/digitale-verwaltung-und-e-government/projekte_digitale_transformation/ki_einsatz_in_der_verwaltung_2021.pdf ↩︎
-
ibid. ↩︎
-
AI-Principles der OECD 2018, übersetzt durch Autor, https://www.oecd.org/going-digital/ai/principles/ ↩︎
-
Ethik-Leitlinien für eine vertrauenswürdige KI der Europäischen Kommission, 2018, siehe z..B. Seite 17, https://ec.europa.eu/futurium/en/ai-alliance-consultation.1.html ↩︎
-
Op. Cit.: S. 72 ↩︎
-
Op. Cit.: S. 70 ↩︎
-
Op. Cit.: S. 68 ↩︎
-
https://www.gov.uk/government/publications/algorithmic-transparency-data-standard ↩︎
-
Siehe z.B.Amsterdam https://algoritmeregister.amsterdam.nl/en/ai-register/ oder Helsininki https://ai.hel.fi/en/ai-register/ ↩︎
-
Auch wenn eine Formel hier sprichwörtlich gemeint ist, ist ein Modell wortwörtlich tatsächlich eine Art komplexe Formel ↩︎
-
Siehe beispielsweise https://www.eipa.eu/publications/briefing/sandboxes-for-responsible-artificial-intelligence/ oder https://www.huntonprivacyblog.com/2021/02/25/regulatory-sandboxes-are-gaining-traction-with-european-data-protection-authorities/ ↩︎
-
Siehe z.B. S.6 und ff. https://unece.org/fileadmin/DAM/stats/documents/ece/ces/ge.44/2018/T4_Switzerland_RUIZ_Paper.pdf ↩︎
-
Siehe z.B. das Buch von Christoph Molnar https://christophm.github.io/interpretable-ml-book ↩︎
-
Siehe Bericht dazu https://www.bfs.admin.ch/bfs/de/home.assetdetail.9847917.html ↩︎
-
https://towardsdatascience.com/interpretable-machine-learning-for-image-classification-with-lime-ea947e82ca13 ↩︎
-
Präsentation von Prof. Bettina Berendt anlässlich der Veranstaltung «KI: Rechtliche Rahmenbedingungen für die künstliche Intelligenz in der Schweiz» ↩︎
-
Wie es z.B. in der Veranstaltung «KI: Rechtliche Rahmenbedingungen für die künstliche Intelligenz in der Schweiz» mehrmals erwähnt wurde ↩︎
-
Siehe z.B. Seite 9, Kommunikation mit Daten, Matthias Mazenauer, Statistisches Amt Kanton Zürich, https://docs.google.com/presentation/d/17b7yOEEclFejydFpE1- AdaSRrgvSp7sq/edit#slide=id.p1 ↩︎