AI & Democracy

Der erste Tag der Applied Machine Learning Days 2021 an der EPFL

Applied Machine Learning Days 2021 organized at the EPFL

Die “Applied Machine Learning Days” an der EPFL haben sich in den letzten Jahren zu einem Schweizer Schlüsselevent mit internationaler Strahlkraft entwickelt. Technologie ist dabei nur eine Seite der Medaille: Die Themen umfassen soziale, politische und wirtschaftliche Aspekte im Zusammenhang mit Machine Learning. Dieses Jahr finden die Applied Machine Learning Days nicht wie sonst während einer gesamten Woche statt, sondern über das gesamte Jahr verteilt. Der erste Tag begann gestern mit dem spannenden Thema “AI and Democracy”. Das ausgezeichnete Grundsatzreferat hat dabei neue Standards gesetzt. Auch bei den anderen Beiträgen hat man gemerkt, dass ausserhalb der Schweiz viele spannende und lehrreiche Projekte zu “AI und Democracy” stattfinden.

Prof. Rayid Ghani von der Carnegie Mellon University hielt sein Grundsatzreferat zum Thema Einsatz von Data Science, um Fairness und gleichwertige Behandlung bei sozialen/politischen Anwendungen zu erzielen. Dabei fing Rayid mit drei Beispiele seiner beruflichen Laufbahn an, wie Data Science Politik positiv beeinflussen kann. Diese Beispiele sind ein guter Einstieg, um die darauffolgenden Überlegungen besser in einen Kontext setzen zu können.

So hat er beispielsweise mitgeholfen ein System zu entwickeln, welches vorhersagt in welchen Häusern am wahrscheinlichsten noch bleihaltige Farbe an den Wänden ist. Das ist ein grosses Gesundheitsproblem und führt in den USA dazu, dass besonders viele Babys mit Bleivergiftungen in die Spitäler eingeliefert werden, da sie den giftigen Staub einatmen. Mit einem solchen Algorithmus kann die Regierung solche Einwohnerinnen und Einwohner präventiv kontaktieren, um staatlich finanzierte Kontrollen und Baumassnahmen durchzuführen - und schlimmeres noch vor der Geburt des Nachwuchses zu verhindern.

Ein weiteres Beispiel ist die Auswertung von Polizeireports, um Polizisten gezielt präventiv zu identifizieren, die (wieder) gewalttätig werden könnten. Somit können Ressourcen in psychologischer Unterstützung frühzeitig einzusetzen werden, um Polizeigewalt zu verhindern.

Ein letztes Beispiel war der Einsatz bei den 10 Millionen Häftlingen, die jedes Jahr in den USA in Haft kommen. Eine grosse Gruppe von Häftlingen hat mentale Probleme und kehren immer wieder in Haft zurück. Durch die Unterstützung von Algorithmen wird nun gezielt nach gewissen Persönlichkeitsmustern gesucht, die mit psychologischer Hilfe unterstützt werden können, damit diese den Kreislauf des Wiederkehrenden Aufenthalts in Haft durchbrechen können.

Zu diesen Eingangsbeispielen gehören immer jeweils drei Elemente dazu: Verstehen was das Problem ist, Vorhersage von gewissen Ereignissen und zuletzt auch die aktive Beeinflussung der Lage. Dabei sind die Ressourcen begrenzt und deshalb wird eine Abwägung zwischen Gleichwertigkeit, Effizient und Effektivität notwendig: Möchte man beispielsweise so vielen Leuten wie möglich helfen? Oder fokussiert man sich zunächst auf die Personen, die man am leichtesten/günstigsten erreichen kann? Wenn man beispielsweise Covid-Testzentren zentral aufstellt, dann spart dies Ressourcen, aber Personen in der Peripherie haben einen schlechteren Zugang.

Rayid meint, dass sie bisherige Diskussion im Bezug auf Machine Learning sich stets auf die Frage fokussiert hat, ob ein rechnerisches Modell fair ist. Aber in Wirklichkeit geht es darum das gesamte System und die Outcomes fair zu gestalten - und das ist eine inhärent soziale Frage, die unbedingt zunächst definiert werden muss. Dabei zeigt das Institut von Rayid auch auf, dass es durchaus möglich ist solche Outcomes zu definieren, Abwägungen bezüglich den Zielen zu treffen und dann konkret zu messen. Nur dann kann man den Entscheidern ein “Policy Menu” (Bild unten) präsentieren, in welchem die verschiedenen Aspekte und Optionen sichtbar werden. In dieser Illustration führt die effizienteste Lösung zu einem grösseren Graben zwischen Weissen und Hispanics. Der Grund könnte darin liegen, dass es in dieser Intervention günstiger is an Weisse Teilnehmenden zu gelangen. Eine Lösung die auf gleiche Behandlung durch die Intervention beruht, würde 2% mehr kosten. Die Linien verlaufen dort parallel, da beide Gruppen gleich viel profitieren. Eine Politik, die aber darauf abzielt, eine Situation der Gleichwertigkeit zu schaffen, muss einen Zusatzeffort bei den Hispanics machen, damit dann beide Linien an einem gemeinsamen Punkt kongruieren - mit weiteren 2% Kosten.

Quelle: AMLD, Präsentation von Rayid Ghani, 25.01.2021

Um überhaupt zu wissen, welche Metriken man bei der Erstellung der Szenarien priorisieren soll, hat sein Institut folgende “fairness tree” vorbereitet, welches dabei hilft die im jeweiligen Anwendungsfall relevanten sozialen “Bias Measures” zu identifizieren. Somit können Algorithmen gezielt eingesetzt werden, um die vordefinierten Ziele den Ressourcen entsprechend zu optimieren.

Quelle: Center for Data Science and Public Policy

Weitere interessante Beiträge

Facebook fordert in den Nutzungsbedingungen, dass politische Werbungen als solche deklariert werden müssen. Aber wird das respektiert? Die Frage ist schwierig zu beantworten, da Facebook keine Daten dazu veröffentlicht. Die brasilianische Wissenschaftlerin Oana Goga und ihr Team haben ein add-on für Browser entwickelt, damit freiwillige Helfer dieses installieren können und somit Daten über die Werbungen an eine Datenbank geschickt werden können. Das Team konnte somit für die Präsidentschaftswahlen 2018 rund 239 Tausend Werbungen von 40 Tausend Werbenden sammeln. 2% der Werbungen, die gezeigt wurden, waren politische Werbungen, die aber nicht als solche deklariert wurden. Der Anteil der korrekt deklarierten politischen Werbungen beträgt etwa 2-4%. Der Anteil der nicht-deklarierten Werbungen ist somit sehr gross.

Oana Goga hat aber auch die interessante Frage der Definition einer politischen Werbung diskutiert. So betrachten Facebook und TikTok auch themenbezogene Werbungen als politisch, wenn sie in eine Liste von politischen Themen fallen. Das ist auch konform mit dem “EU Code of Practice on Disinformation”. Twitter und Google machen dies wiederum nicht. Bei themenbezogenen Werbungen ist es aber schwierig eine saubere Grenze zu ziehen. Folgend zwei Beispiele aus ihren Slides, die unterschiedlich beantwortet werden:

Quelle: AMLD, Präsentation von Oana Goga, 25.01.2021

Mit offenen und grossen Datenmengen Korruption bekämpfen - so könnte man die Präsentation von Irio Musskopf bezeichnen. Sein Team hat veröffentlichte Finanzdaten untersucht, um Anomalien zu finden. Zu den Beispielen gehören Sandwiches die über 50$ gekostet haben, Abrechnungen in Brasilien während die Parlamentarier angeblich gerade in Grossbritannien auf Instagram ein Bild gepostet haben, oder 3 ungefähr gleichzeitige Lunch-Abrechnungen, die aber über 4000km weit entfernt voneinander sind.

Quelle: AMLD, Präsentation von Rayid Ghani, 25.01.2021

Ein interessanter Input kam von Christine Choirat vom Swiss Data Science Center mit dem Titel “Big Problem, Big Data (And Vice Versa). Bei einer Studie zu Luftqualität in den USA ist sie mit dem amerikanischen “HONEST Act” konfrontiert worden. Dieses fordert, dass Rohdaten, Computercodes und alles weitere von Umweltstudien veröffentlicht werden muss. Open Science ist natürlich zu begrüssen, aber hier wurden sensible Patientendaten von “Medicare” verwendet, die nicht veröffentlicht werden können. Somit darf momentan mit dem HONEST Act gar keine Umweltstudie veröffentlicht werden, wenn nicht alle Rohdaten veröffentlicht werden.

Diese Erfahrung ist im Swiss Data Science Center in die Plattformen Renku und insbesondere in das gesicherte “Swiss Data Custodian” geflossen, wo Wissenschaftler miteinander kollaborieren können, aber sensible Daten nur Befugten zugänglich sind. Somit kann man den Spagat zwischen Open Science (mit Komponenten wie Reproduzierbarkeit) und der Verwendung von besonders schützenswerten Daten erreichen.

Arianna Ornaghi lieferte einen spannenden Beitrag zu einer Analyse anhand von Natural Language Processing (NLP) von Richtersprüchen nach “gender bias”. Sie fand ein Weg, um Richter mit einem “gender slant” per NLP zu identifizieren, und kam zum Ergebnis, dass Richter mit “Gender slant” häufiger Urteile von untergeordneten Instanzen aufheben, wenn es durch weibliche Richterinnen gefällt wurden.

Zusammengefasst gab es an diesem AMLD-Tag zu “AI und Democracy” sehr viele neue Dinge zu lernen. Ich freue mich schon auf die weiteren Tage mit Themen wie nachhaltige Energie, Einsatz von AI im Zusammenhang mit Covid (siehe auch das Bild oben mit den vielfältigen Anwendungen), klinischer Einsatz und Städten.

Dr. Christian Ruiz
Dr. Christian Ruiz
Data Scientist

Dr. Christian Ruiz schreibt hier privat zu digitaler Transformation und Datenkompetenz. Newsletter abonnieren

Related