Die Technik hinter dSprachKI – Wenn das Protokoll sich selbst schreibt
Nach wenigen Minuten ist das Protokoll fertig. Eine Stunde Sitzung, Wort für Wort transkribiert, inklusive Schlagworte und Zusammenfassung. Was im Verwaltungsalltag bislang einen halben Arbeitstag kosten konnte, erledigt dSprachKI deutlich effizienter. Dataport hat das Transkriptionstool gemeinsam mit IBM für den sicheren Einsatz in Behörden entwickelt.
Protokollieren gehört zum Verwaltungsalltag. Mitschriften von Sitzungen, Verhandlungen oder internen Besprechungen sind oft Pflicht und binden entsprechend viel Arbeitszeit. dSprachKI beschleunigt diesen Prozess erheblich und wandelt das gesprochene Wort in Text um. Ob direkt aus einem Gespräch mit mehreren Sprecher*innen oder aus hochgeladenen Audio- oder Videodateien: Innerhalb weniger Minuten liegt die fertige Mitschrift vor. Das bedeutet eine dauerhafte Arbeitserleichterung für Behörden. „Man muss das Transkript nur noch überprüfen und anpassen, statt alles von Grund auf abzutippen“, erzählt Jill Sammet, Data Scientistin bei Dataport. Sie ist seit Beginn der Entwicklung von dSprachKI im Jahr 2024 dabei.

Ich stelle mir KI gerne als eine Art Praktikanten vor, der neu ist, und von dem man noch nicht genau weiß, was er kann. Man gibt ihm Aufgaben und überprüft natürlich immer alles – und mit der Zeit merkt man, dass er das doch ganz gut kann.“
Jill Sammet
Data Scientistin bei Dataport
Automatic Speech Recognition als Grundlage
Zuerst suchten sie und ihr Team nach einer robusten, sicheren und praxistauglichen technischen Grundlage für dSprachKI. Letztlich fiel die Wahl für die „Automatic Speech Recognition“, also die automatische Spracherkennung, auf das Open-Source-Modell „Whisper“: Dabei überzeugte Jill Sammet und ihr Team insbesondere, dass die transkribierten Resultate in Tests die geringste Fehlerrate zeigten. Selbst Dialekte waren kein Hindernis, wie Jill Sammet erzählt: „Wir haben dSprachKI unter anderem mit Schweizerdeutsch und Bayerisch getestet, das hat ohne Probleme funktioniert. Das Tool ist auch gegenüber Störgeräuschen robust – bis zu einem gewissen Grad ist selbst Nuscheln kein Problem.“
Der Weg zum fertigen Transkript
Doch dSprachKI kann noch mehr, als nur Sprache in Text umzuwandeln: Beispielsweise sorgt die Sprecherkennung dafür, dass verschiedene Sprecher*innen in einer Aufnahme erkannt und gesprochene Worte entsprechend zugeordnet werden. Wer wiederum mit dem fertigen Transkript weiterarbeiten möchte, kann gezielt Fragen zum Inhalt stellen, nach bestimmten Schlüsselbegriffen suchen oder sich Zusammenfassungen generieren lassen. Für diese Funktionen kommt ein weiteres Open-Source-Sprachmodell zum Einsatz – „Mistral“. Während „Whisper“ für die präzise Transkription sorgt, übernimmt „Mistral“ die intelligente Verarbeitung und Analyse des Textes. So profitieren die Nutzer*innen von einer leistungsstarken Kombination aus Spracherkennung und künstlicher Intelligenz.

Hohe Anforderungen für den Einsatz in Behörden
Eine der größten Hürden für das Team von Dataport und IBM war der Datenschutz, denn für den Einsatz im behördlichen Umfeld gelten besondere Maßstäbe. Gerade bei Gerichtsverhandlungen oder polizeilichen Vernehmungen etwa geht es um sensible Daten, die höchsten Schutzanforderungen unterliegen. dSprachKI wird deshalb vollständig im BSI-zertifizierten Rechenzentrum von Dataport betrieben. Die eingesetzten Sprachmodelle laufen auf der data[port]ai KI-Plattform. Sensible Inhalte bleiben somit in einer kontrollierten, digital souveränen Infrastruktur. Damit wird der Einsatz von KI transparent und kontrollierbar.
Diese Sicherheitsaspekte stellten das Entwicklerteam schon in der Testphase vor hohe Anforderungen. Jill Sammet: „Wir konnten nicht mit echten Daten mit hoher Schutzstufe arbeiten. Also haben wir viel Zeit investiert, um möglichst realitätsnahe Daten zu generieren. Wir haben unter anderem Beispiele selbst eingesprochen und auf simulierte Gerichtsverhandlungen zurückgegriffen, um möglichst nah an echte Use Cases heranzukommen.“

KI als Frage des Vertrauens
Mittlerweile ist dSprachKI bereit für den Einsatz. Gleichwohl ist künstliche Intelligenz im Verwaltungsalltag oftmals eine Frage des Vertrauens. Jill Sammet kennt die anfängliche Skepsis und begegnet ihr mit einem pragmatischen Bild: „Ich stelle mir KI gerne als eine Art Praktikanten vor, der neu ist, und von dem man noch nicht genau weiß, was er kann. Man gibt ihm Aufgaben und überprüft natürlich immer alles – und mit der Zeit merkt man, dass er das doch ganz gut kann.“ Genau diesen Vertrauensaufbau in die Technik will das Team mit dSprachKI schaffen – und hat bei der Entwicklung von Anfang an darauf geachtet, das Tool möglichst benutzerfreundlich zu gestalten: Wenige Klicks reichen aus, um eine Audiodatei hochzuladen und kurze Zeit später das fertige Transkript zu erhalten.
Große Pläne, großes Interesse
Mit dem Rollout endet die Arbeit von Jill Sammet und ihrem Team nicht. Perspektivisch soll dSprachKI etwa Videokonferenzen live untertiteln und so zur Barrierefreiheit beitragen. Auch die Transkription von Audioaufnahmen aus anderen Sprachen direkt ins Deutsche ist denkbar. Jill Sammet freut sich jedenfalls über das große Interesse am Transkriptionstool von Dataport und IBM. Denn so wird KI zum praktischen Helfer im Behördenalltag und gibt Arbeitszeit dort zurück, wo sie gebraucht wird.
