Künstliche Intelligenz

Mit künstlicher Intelligenz Lügen, Hass und Irreführung stoppen

21.06.2022
2/2022

Das Zentrum für Künstliche Intelligenz der ZHAW erforscht Tools zur automatischen Erkennung von problematischem Inhalt im Internet. Sie sollen den Plattformen bei der Entscheidung helfen, ob ein Beitrag gelöscht werden soll.  Neu geht es um die Entwicklung eines Prognose-Tools für Hassreden als Frühwarnsystem, um Hetze zu stoppen, bevor sie sich im Netz verbreitet.

Manche Lügen haben kurze Beine. Am 50. Tag nach der Invasion in der Ukraine meldete die staatliche russische Nachrichtenagentur Tass den Verlust des Raketenkreuzers «Moskwa». Das Flaggschiff der russischen Schwarzmeerflotte sei in einem «schweren Sturm gesunken», schrieb Tass.  Schon wenige Stunden später schrieb der Meteorologe Jörg Kachelmann auf Twitter: «Die ‹Moskwa› ist ganz sicher nicht wegen eines Sturms gesunken, weil es keinen Sturm gab.». Unter die Meldung stellte er einen Link zur Wetterkarte für den fraglichen Zeitpunkt. Tatsächlich: bloss ein laues Lüftchen vor der Küste. Das stützte die Darstellung der ukrainischen Streitkräfte. Sie hatten behauptet, die ‹Moskwa› mit Anti-Schiff-Raketen versenkt zu haben. 

Forschung zur Erkennung von Fake News

Oft bleiben Fehlinformationen aber länger unwiderlegt. «Bei manchen Behauptungen sind die Fakten nicht so einfach verifizierbar wie das Wetter vor Odessa», sagt Pius von Däniken, der im Zentrum für Künstliche Intelligenz an Methoden forscht, mit denen sich problematische Inhalte auf Social Media erkennen lassen. Verdächtig ist alles, was sich unter Propaganda, Fake News und Verschwörungstheorien einreihen lässt. Auch toxische Diskurse wie Hassreden, Rassismus oder Belästigungen gehören dazu. 

Wenn Profile missbraucht werden

Um solche Inhalte aufzuspüren, kommen verschiedene Ansätze in Frage. Wichtige Hinweise liefert zum Beispiel ein Blick auf die Herkunft. Immer wieder würden Profile geklaut und zur Verbreitung problematischer Inhalte missbraucht, sagt von Däniken. Oft zeige dies schon ein Blick auf die sogenannten Metadaten: Wie häufig wird gepostet? Wann genau? Mit welchen anderen Profilen gibt es Kontakte? «Auffällig ist zum Beispiel, wenn sich die Tageszeit ändert, zu der Beiträge veröffentlicht werden», erläutert der 31-Jährige. Womöglich hat sich die Aktivität plötzlich auf die Arbeitszeiten in der Zeitzone Chinas oder Moskaus verlagert? Auf einen automatisierten Versand deutet, wenn präzise alle 15 Minuten ein Beitrag online gestellt wird. Oder das Profil verbreitet unvermittelt Beiträge anderer Nutzer massenhaft weiter, die es zuvor noch nie geteilt hat. 

«Eine automatische Sperre wäre gefährlich, entscheiden müssen deshalb stets Menschen aus Fleisch und Blut.»

Pius von Däniken, Zentrum für Künstliche Intelligenz der ZHAW

Natürlich sind auch die Inhalte selbst aufschlussreich, etwa wenn Fluchwörter oder beleidigende Bezeichnungen Hinweis geben auf Hassreden. Die grosse Herausforderung ist aber die enorme Menge. Deshalb kommt bei solchen Textanalysen Natural Language Processing zum Zuge, eine Methode an der Schnittstelle zwischen Sprachwissenschaft und Informatik. Sie bildet einen wichtigen Forschungsschwerpunkt am Zentrum für Künstliche Intelligenz.

Wie ein Spam-Filter, nur komplexer

Dabei wird natürliche Sprache algorithmisch verarbeitet. «Wir haben eine Werkzeugkiste mit Techniken, um verschiedene Probleme zu lösen», beschreibt Pius von Däniken das Vorgehen. Bei Social-Media-Profilen zum Beispiel ist häufig die Klassifikation der verbreiteten Inhalte gefragt. Geht der Tweet oder das gepostete Dokument als unbedenklich durch? Oder handelt es sich um einen problematischen Text? Im Prinzip könne man sich das ähnlich vorstellen wie beim Filter, der entscheidet, ob eine eintreffende Mail Spam ist oder nicht, sagt Pius von Däniken– «allerdings ist die Sache eine Spur komplexer». 

Im Auftrag von Armasuisse

Für die automatische Erkennung von Fake News und Hassreden durch Künstliche Intelligenz interessiert sich auch die Eidgenossenschaft. Der Cyber-Defence Campus des Bundesamts für Rüstung (Armasuisse) treibt die Forschung in diesem Bereich voran. Die Cyber-Bedrohungen hätten deutlich an Bedeutung und Komplexität gewonnen «und wirken sich zunehmend kritisch für die Sicherheit unserer Gesellschaft aus», begründet dies Vincent Lenders, der Leiter des Campus, im Jahresbericht.

Das ZHAW-Team, das sich am Zentrum für Künstliche Intelligenz auf Natural Language Processing spezialisiert hat, hat Armasuisse mit dem Forschungsprojekt «Erkennung von verdächtigem Verhalten in Social Media» in einer ersten Phase auf den neusten Stand der verschiedenen Erkennungsmethoden aufdatiert. Nun geht es in einer zweiten Phase um die Entwicklung eines Prognose-Tools für Hassreden, das auf künstlicher Intelligenz basiert. Es soll als Frühwarnsystem Hinweise darauf geben, ob eine Nutzerin oder ein Nutzer des Kurznachrichtendiensts Twitter demnächst Hassbotschaften verbreiten wird. Die Idee dahinter: So kann man die Hetze stoppen, bevor sie sich im Netz verbreitet.

Mit 200 Twitter-Profilen wird KI trainiert

Trainiert wird das Tool mit einem Datensatz von rund 200 Twitter-Profilen. Etwa die Hälfte davon fiel schon häufig auf mit eindeutigen Hassbotschaften, beleidigenden oder anstössigen Inhalten. Die Bewertung der Inhalte wurde von drei Personen vorgenommen. Die übrigen Profile haben allenfalls mal etwas Verdächtiges veröffentlicht. «Das muss aber noch nichts heissen», präzisiert von Däniken die Einstufung der zweiten Gruppe. Der Fall sei nicht immer klar, zum Beispiel weil Informationen zum Hintergrund der jeweiligen Person fehlen. Es habe einen anderen Stellenwert, ob eine Jüdin einen Judenwitz poste oder ob das ein Neonazi tue. Hinzu komme, dass sich die drei bewertenden Personen oft uneinig gewesen seien, ob ein Inhalt anstössig sei oder nicht.  

Indikatoren für Veränderungen

«Von allen Profilen haben wir anschliessend die gesamte Timeline untersucht, also das komplette bisherige Verhalten auf Twitter», sagt von Däniken. Dazu gehören nicht nur die bisherigen verschickten Mitteilungen. Einbezogen wurde auch das Netzwerk um das einzelne Profil herum, also der Einfluss durch andere. Klar: Zu den Indikatoren für Veränderungen gehört auch das, was der jeweilige Nutzer, die jeweilige Nutzerin aktuell liest. 

«Unser Ziel ist es, die Einflüsse zu modellieren, die zu dieser Verhaltensänderung führen, um präventiv aktiv zu werden.»

Pius von Däniken, Zentrum für Künstliche Intelligenz der ZHAW

Interessant sind nicht die klaren Fälle, die schon von Beginn weg hasserfüllte Beiträge posten. Spannender ist vielmehr eine zweite Gruppe: die tendenziell Verdächtigen. Sie wurden vielleicht bei einer bestimmten Gelegenheit mal sauer und veröffentlichten dann etwas Problematisches. Bei vielen blieb es dabei. Andere hingegen beginnen sich zu radikalisieren. Sie rutschen in eine regelrechte Hass-Spirale ab und verbreiten dann bald regelmässig Hassbotschaften.

«Unser Ziel ist es, die Einflüsse zu modellieren, die zu dieser Verhaltensänderung führen», sagt der Forscher. Die entsprechenden Profile stehen fortan unter Beobachtung. Und wenn Hassbotschaften drohen, soll das Prognose-Tool Alarm schlagen, damit die Verbreitung rechtzeitig gestoppt werden kann. Eine andere Möglichkeit wäre es, die Person darauf aufmerksam zu machen, dass sie jetzt die Grenze des Zulässigen überschreitet. 

Vorselektion durch Tool

Wird das Konto automatisch gesperrt? Das wäre Pius von Däniken nicht geheuer. Zensur habe immer auch eine ethische Komponente, sagt er, es bestehe die Gefahr, dass man die Meinungsäusserungsfreiheit ungerechtfertigt einschränke: «Ein Automatismus wäre gefährlich, entscheiden müssen deshalb stets Menschen aus Fleisch und Blut.» Der Forscher hält diesen Weg auch für bedeutend effizienter. Ein solches Tool könne seine Vorteile dann ausspielen, wenn es mit einer Vorselektion verdächtigen Inhalt zusammentrage und dann den Menschen entscheiden lasse. Im Erkennen von verdächtigen Mustern sind Maschinen stark. Sie können blitzschnell die riesigen Datenberge durchforsten, die Social-Media-Profile Stunde für Stunde im Internet produzieren.

Passable Witze oder Hassrede?

«Beim Entscheiden hingegen ist der Mensch effizienter», betont von Däniken. Der Mensch arbeitet dann die nach Auffälligkeit hierarchisierten Problemfälle zügig ab. Menschen seien besser darin, passable Witze von Hassrede zu trennen. Oder Anstössiges von Harmlosem zu unterscheiden – anders als etwa der Facebook-Algorithmus, der sich in der Vergangenheit mit der Zensur der steinzeitlichen Statue «Venus von Willendorf» und vieler anderer etablierter Kunstwerke wegen angeblicher Anstössigkeit mehrfach blamierte.

Dasselbe gelte bei der zielgerichteten Beschaffung der entscheidenden Fakten, um den Wahrheitsgehalt einer fragwürdigen Nachricht zu überprüfen. Der Mensch sei besser darin, situativ die relevanten Punkte zu erkennen und punktuell mit der richtigen zuverlässigen Quelle abzugleichen und so wie bei der «Moskwa» Sturm von Flaute, Lüge von Wahrheit zu unterscheiden.

Wie häufig sind Schweizer Jugendliche online Hass und Fake News ausgesetzt?

Die ZHAW-Fachgruppe Medienpsychologie veröffentlicht in regelmässigen Abständen die sogenannte JAMES-Studie über den Medienumgang von Jugendlichen in der Schweiz. Ausgehend von der Studie von 2020, untersucht nun das Zentrum für Künstliche Intelligenz, wie häufig Hassbotschaften in einschlägigen Netzwerken in Umlauf sind. Ebenso will das Forschungsprojekt die Akteure charakterisieren, die hinter solchen Botschaften stecken. Es verfolgt zwei Ansätze. «Wir fokussieren uns einerseits auf Daten von Jodel.ch, einer Plattform, auf der Jugendliche lokal kommunizieren», erklärt Projektleiter Pius von Däniken. Stellt jemand eine Nachricht online, so sehen das andere nur im Radius von einigen Kilometern. Zum Zweiten erfolgt eine Analyse von Tweets aus dem Jahr 2021 zu polarisierenden Volksabstimmungen wie über ein Burka-Verbot, die Ehe für alle und das Covid-19-Gesetz. Derzeit läuft die Auswertungsphase des Projekts. 

0 Kommentare

Sei der Erste der kommentiert!

Kommentar ist erforderlich!
Name ist erforderlich!
Gültige E-Mail ist erforderlich!
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.