Sprachbasierte Interaktion bietet großes Potenzial, um einen barrierefreien und niedrigschwelligen Zugang zu E-Government-Diensten zu schaffen. Welche Schritte bei der Umsetzung zu beachten sind, untersucht die vom Nationalen E-Government Kompetenzzentrum (NEGZ) geförderte Kurzstudie zur Sprachsteuerung von E-Government Diensten in Deutschland.
Sprechen statt Mausklick und Tastatureingabe – auch der öffentliche Bereich kann von der Sprachsteuerung als Interaktionskanal profitieren, sei es bei der Beantragung eines Anwohnerparkausweises oder der Steuererklärung. Einfache mündliche Statusabfragen lassen sich schon heute realisieren. Für komplexere Interaktionen wie Sprachdialoge, die Bürgerinnen und Bürger beispielsweise Schritt für Schritt durch eine Behördendienstleistung oder durch einen Antrag führen, fehlen in Deutschland jedoch bislang zentrale Grundlagen. Benötigt wird eine Infrastruktur, die den Aufbau staatlicher Sprachsteuerungsangebote unter Berücksichtigung der hohen Datenschutzanforderungen ermöglicht.
Wir sind überzeugt davon, dass sich die Sprachsteuerung als Interaktionskanal durchsetzen wird.
„Wir sind überzeugt davon, dass sich die Sprachsteuerung als Interaktionskanal durchsetzen wird. Umso wichtiger ist es, bereits heute die richtigen Weichen für den Einsatz im behördlichen Kontext zu stellen“, sagt Dr. Stefan Schaffer vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Schaffer ist Mitautor der Kurzstudie und forscht im Bereich Kognitive Assistenzsysteme.
Die Studie identifiziert mehrere vielversprechende Szenarien für Sprachinteraktion in behördlichen Prozessen. Der Schwerpunkt liegt dabei auf Einsatzmöglichkeiten rund um die Steuererklärung. „Ein Steuer-Assistenzsystem könnte zum Beispiel dabei helfen, Belege zu erfassen oder Arbeitsfahrten zu protokollieren. Perspektivisch könnten Dialogsysteme das Ausfüllen vollständiger Anträge unterstützen“, erklärt Roland Krebs, Mitautor der Kurzstudie und ELSTER-Gesamtprojektleiter beim Bayerischen Landesamt für Steuern.
Für die sinnvolle Gestaltung der Dialoge ist KI alleine noch nicht die Antwort.
„Das Potenzial der Sprachsteuerung ist gewaltig, gerade bei Anwendungen für alle Bürger. Es gibt einfach keine natürlichere Interaktionsform“, ergänzt Janos Standt, Mitautor der Kurzstudie und stellvertretender Bereichsleiter Public Sector der mgm technology partners GmbH. „Für die sinnvolle Gestaltung der Dialoge ist KI alleine noch nicht die Antwort. Eine Ergänzung um domänenspezifische Modelle erscheint unbedingt notwendig. Ferner ist zu klären, woher die Daten für die Dialoglogik kommen und wie sie unter der Kontrolle der Behörden bleiben können“
Der technische Aufwand für die Realisierung überzeugender Sprachdialogsysteme ist deutlich höher als bei klassischen Benutzerschnittstellen. Ein entscheidender Schritt ist die Analyse der Benutzerabsicht, die hinter einer Eingabe steckt. State-of-the-Art-Verfahren verwenden hierfür Machine Learning Ansätze. Um die Systeme anzulernen, sind Sammlungen aus bis zu hunderttausenden analysierten themenspezifischen Dialogen nötig. Idealerweise werden auch Interaktionen aus dem laufenden Betrieb kontinuierlich ausgewertet und in die Datenbanken eingespeist. Bislang liegen im Bereich E-Government jedoch kaum entsprechende Dialogdaten vor. Komplexe Regeln lassen sich bei geringen Fallzahlen zudem nicht erlernen.
Eine weitere Herausforderung ist der Betrieb einer technischen Lösung, die die hohen Anforderungen an einen vertraulichen Umgang mit Daten erfüllt. Die Nutzung kommerzieller Cloud-basierter Dienste erscheint aufgrund der Verarbeitung vertraulicher Informationen in E-Government Diensten hochproblematisch. Es ist nicht akzeptabel, dass sensible Informationen wie sie zum Beispiel bei der Steuererklärung anfallen über Drittanbieter-Server laufen. Die Autoren der Kurzstudie plädieren dafür, auf sogenannte On-Premises-Lösungen zu setzen, bei denen die Dialoglogik inklusive Spracherkennung unter der Kontrolle der Betreiber bleibt – auch wenn dadurch der finanzielle und technische Aufwand höher ausfällt.
Für die Integration von Sprachsteuerung in E-Government Diensten empfehlen die Autoren ein schrittweises Vorgehen. So könnten bereits kurzfristig einfache Leistungen wie Statusabfragen und Fristverlängerungen sprachbasiert umgesetzt werden. Mittelfristig wird empfohlen, einen Interview-Modus zur Vorbereitung größerer Anträge umzusetzen. Auch eine Integration mit dem Steuerportal ELSTER wäre denkbar. Langfristiges Ziel sollte es sein, ein vollständiges, kontextbezogenes Ausfüllen komplexer Anträge wie der Steuer in Form eines Dialogs zu ermöglichen.
Viele der in der Kurzstudie beschriebenen Szenarien lassen sich auf weitere Leistungen des Umsetzungskatalogs übertragen, die vom IT-Planungsrat von Bund und Ländern nach dem Gesetz zur Verbesserung des Onlinezugangs zu Verwaltungsleistungen (OZG) definiert wurden.
Fazit: Bis zur überzeugenden breitflächigen Umsetzung von Sprachsteuerungsangeboten in E-Government Diensten ist es noch ein längerer Weg. Die Entwicklung sollte jedoch zeitnah starten, um den Anschluss nicht zu verlieren.
Zuerst erschienen auf https://live.mgm-tp.com/de/