Was ist ein „Rachebutzer“? Ein „frecher, rotznäsiger Bengel“, schreibt ChatGPT, nach der Bedeutung dieses Mainzer Dialektworts gefragt. Falsche Antwort: Unter „Rachebutzer“ versteht der „Meenzer“ einen sauren Wein. Das Beispiel stammt aus einer Untersuchung von Sprachforschern der Gutenberg-Universität, die zu dem Schluss kommt: Künstliche Intelligenz versteht die Mainzer Mundart nicht. Die Wissenschaftler erstellten zunächst ein maschinenlesbares Lexikon mit 2351 Mainzer Dialektwörtern und ihren hochdeutschen Übersetzungen. Dann ließen sie verschiedene Open-Source-Sprachmodelle die Bedeutung der „meenzerischen“ Wörter erklären und hochdeutsche Ausdrücke in den lokalen Dialekt übertragen. Beim Erzeugen von Wortdefinitionen lag die KI durchschnittlich in vier Prozent der Fälle richtig. Von den Mundartwörtern, die aus hochdeutschen Begriffen generiert werden sollten, waren sogar nur 0,6 Prozent korrekt. Auch mit zusätzlichen Hilfen lag die Trefferquote immer unter zehn Prozent. Eine mögliche Erklärung ist für die Forscher, dass es im Internet zu wenige in Mainzer Mundart verfasste Dokumente gebe, die von den Sprachmodellen zum Lernen genutzt werden könnten. Diese Schwierigkeit bestehe auch bei anderen Dialekten und könne dazu führen, dass kleinere Sprachvarianten in digitalen Anwendungen „unsichtbar“ würden. „Langfristig brauchen wir Modelle, die nicht nur Standardsprachen, sondern auch regionale und kulturell bedeutsame Varietäten verarbeiten können“, so der Mainzer Informatiker Minh Duc Bui. Sprachtechnologien könnten helfen, Dialekte digital zu dokumentieren und zugänglich zu machen.
