Spracheingabe und Sprachsteuerung

Der Begriff Spracheingabe beschreibt zunächst einmal nur die Möglichkeit, per gesprochener Sprache vorgetragene Inhalte mittels einer Spracherkennungssoftware in elektronischen Text umzuwandeln. Der entstehende Text kann dann beispielsweise am Computer oder Smartphone in einer Textverarbeitung gespeichert oder als Grundlage einer E-Mailnachricht verwendet werden. Spracheingabe ist somit lediglich eine Diktierfunktion, die als alternative Eingabemethode zum manuellen Tippen eines Textes mit Hilfe einer Computertastatur eingesetzt werden kann. Insbesondere umfasst sie nicht zwingend die Möglichkeit, den maschinell umgewandelten Text mit Hilfe gesprochener Sprache auch korrigieren oder überarbeiten zu können.

Sprachsteuerung meint die akustische Steuerung eines IT-Systems mittels gesprochener Anweisungen. Dies umfasst unter Anderem das Starten und Beenden von Programmen sowie die Softwarebedienung über spezielle Sprachbefehle. Wie für die Spracheingabe, so ist auch für die Sprachsteuerung eine Spracherkennungssoftware erforderlich, die die akustischen Anweisungen identifiziert und an das für die Ausführung zuständige Betriebssystem bzw. Anwendungsprogramm weiterreicht.

Zur Ausführung von Spracheingabe und Sprachsteuerung muss neben der Spracherkennungssoftware ein Mikrofon vorhanden sein, das die gesprochene Sprache aufzeichnet und an die Spracherkennungssoftware weiterleitet.

Um einen PC oder ein Mobilgerät (Smartphone oder Tablet) beispielsweise für die Textverarbeitung komplett über Sprache bedienen zu können, muss am Gerät sowohl Spracheingabe als auch Sprachsteuerung möglich sein. Nur so ist garantiert, dass eingesprochener Text sich auch über gesprochene Anweisungen bearbeiten lässt.

Zusatzanforderungen für Menschen mit Seheinschränkung

Screenreader oder Vergrößerungssoftware

Für blinde Menschen kommt eine weitere Anforderung hinzu: Da ein Monitor oder Display als Anzeigegerät für diesen Personenkreis nicht in Frage kommt, muss ein Bildschirmausleseprogramm (Screenreader) Inhalte und Strukturen, die sehende Personen visuell erfassen würden, mittels einer Sprachausgabe akustisch oder über eine Braillezeile in tastbarer Blindenschrift ausgeben. Hochgradig sehbehinderte Menschen, denen Bildschirmarbeit noch möglich ist, benötigen eine Vergrößerungssoftware. Ohne Screenreader bzw. Vergrößerungssoftware könnten blinde bzw. hochgradig sehbehinderte Menschen den von der Spracherkennungssoftware bereitgestellten Text nicht korrekturlesen und erhielten auch keine Rückmeldung darüber, ob ein Sprachbefehl erfolgreich ausgeführt wurde oder nicht.

Textbearbeitung per Sprachsteuerung

Personen ohne visuelle und motorische Einschränkungen, die Spracheingabe und Sprachsteuerung zur beschleunigten Bedienung eines Computers einsetzen, können den maschinell erkannten Text am Bildschirm mit den Augen korrekturlesen und bei Bedarf mittels Maus und Tastatur bearbeiten. Menschen die aufgrund motorischer Einschränkungen die Tastatur nicht einsetzen können und blinde Menschen, die aufgrund widriger Umstände die Tastaturbedienung nicht ausreichend beherrschen, müssen in der Lage sein, Texte alleine mittels gesprochener Befehle effizient korrigieren, bearbeiten und formatieren zu können. Hierzu muss die Spracheingabesoftware Sprachkommandos bereitstellen, die das Bewegen der Schreibmarke im Text und das Ausführen von Textbearbeitungsfunktionen genauso effektiv ermöglichen wie die Tastatur oder die Maus.

Echo-Funktion

Für blinde Menschen gibt der eingesetzte Screenreader nicht automatisch den Text wieder, der von einer Spracherkennungssoftware nach einem Diktat in ein Textverarbeitungsprogramm eingefügt wurde. Auch wird das Ergebnis einer Textbearbeitung oder Textformatierung nicht zwangsweise automatisiert vom Screenreader akustisch rückgemeldet. In den Prozess der Spracheingabe und Sprachsteuerung durch Personen ohne Sehvermögen muss vielmehr eine sogenannte Echo-Funktion integriert sein, die sicherstellt, dass per Sprache eingegebener, veränderter oder formatierter Text von den Ausgabemedien des Screenreaders (Sprachausgabe bzw. Braillezeile) zuverlässig angezeigt wird

Brückensoftware

Um die genannten Anforderungen - zuverlässige akustische und taktile Rückmeldungen von Textnavigations- und Bearbeitungsvorgängen über die Ausgabemedien des Screenreaders - realisieren zu können ist es notwendig, dass Spracherkennungssoftware und Screenreader auf Software-Ebene miteinander kommunizieren. Schließlich muss der Screenreader über die Auswirkungen und Ergebnisse der von der Spracherkennungssoftware veranlassten Aktionen informiert sein. Diese Kommunikation auf Anwendungs-Ebene wird über eine Brückensoftware ermöglicht, die als dritte Programmkomponente neben der Spracherkennung und dem Screenreader vorhanden sein muss.

Technische Umsetzung

Reine Spracheingabe ist auf mobilen Endgeräten blinden und sehbehinderten Menschen überall dort ohne Zusatzkosten möglich, wo entsprechende Bedienungshilfen wie Screenreader und Vergrößerungssoftware auf dem jeweiligen Smartphone oder Tablet zur Verfügung stehen. Die verbreitetste Spracherkennungssoftware auf PC-Systemen ist das Produkt „Dragon Professional“ (früher unter dem Namen „Dragon Naturally Speaking“ bekannt).

Im deutschsprachigen Raum wird ein Software-Gesamtpaket zur blindengerechten Spracheingabe und Sprachsteuerung eines PC-Systems von der Firma AASB Maria Seidling unter dem Namen „Dragon mit Zusatzskripten für den Screenreader JAWS“ angeboten.