ZHAW digitalisiert Schweizer Dialekte

23.03.2021
1/2021
  • Dossier

Die ZHAW ruft erstmals zu einer nationalen Datensammlung von Schweizer Dialekten auf. Ab Ende April soll die Bevölkerung mithelfen und Sprachaufnahmen erstellen. Mit den digitalisierten Dialekten werden Computer­programme trainiert.

Reden, wie einem der Schnabel gewachsen ist. Das können Deutschschweizerinnen und -schweizer bisher nicht, wenn sie es mit Chat­bots oder anderen sprachverarbeitenden Diensten und Anwendungen zu tun haben. Für grosse Technologie­firmen wie Google, Apple oder Amazon ist der Schweizer Markt zu klein und deshalb nicht attraktiv, um eine Lösung zu entwickeln, die Schweizerdeutsch versteht. Das soll sich ändern. «Wir wollen Schweizer Dialekte sammeln und digitalisieren», sagt Mark Cieliebak vom ZHAW-­Institut für angewandte Informationstechnologie (InIT). Das Ziel ist, mindestens 2000 Stunden schweizerdeutsche Aufnahmen von allen Dialekten zu erhalten.

«Weil wir den Datensatz für Forschungszwecke veröffentlichen, können Computerprogramme entwickelt werden, die dann in Zusammenarbeit mit lokalen Firmen für verschiedene Zwecke eingesetzt werden können.»

Manuela Hürlimann, Projektleiterin

Organisiert wird das schweizweite Forschungsprojekt von der Swiss Association for Natural Language Processing (SwissNLP), dem Verband für Sprachtechnologie in der Schweiz, dessen Präsident Mark Cieliebak ist. Mit einer Webapplikation können Freiwillige Audioaufnahmen erstellen, bei denen sie hochdeutsche Sätze in natürliche Mundart übersetzen oder die Aufnahmen anderer Teilnehmender  überprüfen.

Innovationsstandort Schweiz stärken

«Weil wir den Datensatz für Forschungszwecke veröffentlichen, können Computerprogramme entwickelt werden, die dann in Zusammenarbeit mit lokalen Firmen für verschiedene Zwecke eingesetzt werden können», erklärt Projektleiterin Manuela Hürlimann, wissenschaftliche Mitarbeiterin in Cieliebaks Team. So stärke die Schweizer Dialekt­sammlung den Forschungs- und Innovationsstandort Schweiz und ermögliche Produkte und Dienstleis­tungen, die unser Leben einfacher machten. Eine automatische Transkription von Sitzungen und Interviews könnte Protokollieren ersetzen.

Mögliche Anwendungen

Sprachschnittstellen zu Anwendungen werden möglich und mit Sprach­assistenten könnte man auf Schweizerdeutsch sprechen. Firmen könnten automatisch Kundenfeedback auswerten, etwa Anrufe beim Kundendienst. Untertitel für TV-Sendungen könnten automatisch erstellt werden. Medienschaffende und Archivare könnten Audiomaterial einfacher nutzen, indem sie auf eine Verschlagwortung zurückgreifen.

So funktioniert das Training

Die Technologien für das Training von Speech-to-Text-Systemen wurden in den letzten Jahren laufend weiterentwickelt und basieren heute meistens auf neuronalen Netzwerken. Für Sprachen wie Englisch und Deutsch liefern diese Methoden bereits sehr gute Ergebnisse mit Fehlerraten von unter zwei Prozent. «Wir müssen das Rad also nicht neu erfinden, sondern können bestehende Forschungsergebnisse aus anderen Sprachen nutzen», so Cieliebak.  Die ZHAW selbst hat 2020 ein erstes System, basierend auf 70 Stunden Parlamentsdaten, entwickelt.

Neben der ZHAW ist auch die FH Nordwestschweiz ins Dialekt-Projekt involviert. Die AXA Versicherung, das Media Technology Center der ETH und die Initiative ZHAW digital unterstützen es.