Sprachausgabe

Eine Sprachausgabe (auch Sprachausgabesystem; englisch: TTS = Text To Speech System) ist eine Software, die Text in gesprochene Sprache umsetzt. Da die Sprache synthetisch erzeugt wird, wird als Synonym für Sprachausgabe oft das Wort Sprachsynthesizer verwendet. Um die Zeichen und Wörter auszusprechen, bedient sich die Sprachausgabe einer Stimme. Die Grundlage dieser Stimme ist ein Sprecher, der entweder vollsynthetisch - also künstlich - generiert ist, oder es handelt sich um Tonaufzeichnungen einer echten Person, die „Sound-Schnipsel“ in einem Tonstudio eingesprochen hat. Durch die Anwendung von Sprechparametern wie Geschwindigkeit, Betonung (Intonation) etc. auf das Tonmaterial des Sprechers entsteht die Stimme. Um diese Stimme hörbar zu machen, werden Lautsprecher oder Kopfhörer eingesetzt.

Bis in die frühen 2000er Jahre hinein wurden an blinden- und sehbehindertenspezifisch ausgestatteten IT-Arbeitsplätzen Sprachausgaben auch als eigenständige Geräte (Hardware) eingesetzt. Diese Geräte waren etwa zigarrenkistengroß und wurden je mit einem Kabel mit dem Computersystem und einer externen Stromversorgung verbunden (fortschrittlichere Geräte enthielten für den mobilen Betrieb auch einen Akku). Was Blinden- und Sehbehindertenarbeitsplätze angeht, sind Hardware-Sprachausgaben vollständig durch Sprachausgabensoftware verdrängt worden.

Der Begriff Sprachausgabe wird fälschlicherweise immer wieder mit den folgenden beiden Begriffen verwechselt:

Screenreader: Screenreader sind Programme, die Bildschirminhalte und Bildschirmstrukturen ermitteln und so aufbereiten, dass sie unter Anderem über eine Sprachausgabe akustisch wiedergegeben werden können. In allen gängigen Screenreadern ist hierzu eine Sprachausgabe integriert. „Screenreader“ ist also ein umfassenderer Begriff.
Spracheingabe oder Sprachsteuerung: Eine Spracheingabe tut das Gegenteil einer Sprachausgabe: Sie wandelt (von einem Menschen) gesprochene Sprache in elektronischen Text um. Sprachsteuerungen setzen gesprochene Kommandos in Aktionen eines Computers oder Roboters um.

Zur Kommunikation zwischen einem Computersystem und einer Sprachausgabe gibt es genormte Software-Schnittstellen, so beispielsweise unter Microsoft Windows das SAPI (Speech Application Programming Interface).

Oft werden Sprecher und Stimmen für bestimmte Sprachsynthesizer entwickelt. Welche Sprecher ein Sprachausgabenanwender als angenehm empfindet und welche Stimmparameter dabei eingesetzt werden sollten, muss individuell erprobt werden. Bei Sprachausgabennutzern mit zusätzlicher Hörbehinderung ist bei der Auswahl der Sprachausgabe bzw. ihrer Sprecher und Stimmen auf gute Verständlichkeit in der jeweiligen Hörumgebung zu achten.

Sprachausgaben stehen kostenlos und kostenpflichtig zur Verfügung. Für viele Sprachausgaben sind Zusatzsprecher und -Stimmen kostenlos aus dem Internet nachladbar.

Im hierarchisch gegliederten Hilfsmittelverzeichnis der gesetzlichen Krankenversicherung (GKV-Hilfsmittelverzeichnis) sind Sprachausgaben nicht aufgeführt.

Arten von Sprachsynthesen

Grob gesprochen gibt es zwei Vorgehensweisen bei der Produktion synthetischer Sprache:

Formantsynthese: Die Sprachproduktion wird komplett synthetisch simuliert. Dabei wird ein menschlicher Vokaltrakt samt Luftstrom im Computer modelliert. Der Vokaltrakt wirkt hierbei als akustisches Filter, dessen Resonanzfrequenzen die sogenannten Formanten sind. Diese spielen beim Erkennen von Vokalen wie „a“ oder „o“ eine zentrale Rolle. Da die Formantsynthese mit Hilfe von Algorithmen erfolgt, zählt sie zu den regelbasierten Verfahren der Sprachsynthese.
Konkatenative Synthese: Von einem geübten menschlichen Sprecher oder einer geübten Sprecherin wird im Tonstudio eine Sammlung von „Sprach-Schnipseln“, ein sogenanntes Sprachkorpus eingesprochen. Dieses Korpus wird so aufbereitet, dass es in einzelne Laute und Lautgruppen (Sprachsegmente) zerlegt werden kann. Bei der Produktion synthetischer Sprache werden diese Segmente dann aneinandergereiht (konkateniert), wobei die Übergänge geglättet und Besonderheiten der Betonung berücksichtigt werden. Da die Sprachsegmentkonkatenation auf Aufnahmen realer Sprecher fußt, gehört sie zu den datenbasierenden Syntheseverfahren. Die derzeit gebräuchlichste Methode unter den konkatenativen Verfahren ist die NUUS (non-uniform unitSelection Synthese).

Unterschiede zwischen verschiedenen Verfahren der Sprachsynthese

Die folgenden Unterschiede zwischen formant-synthetischen und konkatenativ-synthetischen Sprachausgaben lassen sich allgemein beschreiben:

Formant-synthetische Sprachausgaben klingen künstlich und robotisch. Es fällt nicht immer leicht, einem formant-synthetischen Sprecher eindeutig ein Geschlecht zuzuordnen. Konkatenativ-synthetische Sprachausgaben klingen „echter“, „natürlicher“ bzw. „menschlicher“ - nicht zuletzt, weil das Sprachmaterial von einem „echten Menschen“ eingesprochen wurde, dessen Stimme auch bei der algorithmischen Verkettung der Lautäußerungen klar erkennbar bleibt. Konkatenativ-synthetische Sprachausgaben werden deshalb vor allem von blinden Anwendern bevorzugt, die noch wenig Hörerfahrung mit Sprachsynthesizern haben.
Formant-synthetische Sprachausgaben benötigen weitaus weniger Rechenleistung als Konkatenativ-Synthetische. Da aber mittlerweile auch die Prozessoren von niedrigpreisigen Smartphones und Tablets über genügend Rechenleistung zum flüssigen Betrieb einer konkatenativ-synthetischen Sprachausgabe verfügen, gibt es inzwischen keinen Anlass mehr, Benutzer leistungsschwacher Hardware auf formant-synthetische Sprachausgaben zu verweisen.
Formant-synthetische Sprachausgaben neigen aufgrund ihrer vollkommenen Künstlichkeit zur überdeutlichen Betonung. Dies macht sie wertvoll zum Kontroll-Lesen selbst verfasster Texte, da aufgrund der überdeutlichen Wort- und Silbenbetonung die meisten Rechtschreib- und Groß-/Kleinschreibungsfehler von geübten blinden Anwendern sofort erkannt und korrigiert werden können. Konkatenativ-synthetische Sprachausgaben betonen menschlicher, was bedeuten kann, dass sie Silben verschleifen oder verschlucken. Sie lesen und betonen ähnlich, wie dies ein menschlicher Vorleser tun würde.
Tests haben gezeigt, dass formant-synthetische Sprachausgaben bei extrem hoher Sprechgeschwindigkeit besser verständlich sind als konkatenativ-synthetische Sprachausgaben. Insbesondere geübte Sprachausgabe-Nutzer, die viel Information in kurzer Zeit aufnehmen müssen, greifen deshalb - zumindest in diesen Situationen - gerne zu formant-synthetischen Sprachsynthesizern.

Als Fazit lässt sich festhalten, dass sowohl die formant- als auch die konkatenativ-synthetischen Sprachausgaben ihre jeweiligen - unter Umständen auch situativ bedingten - Vor- und Nachteile haben. eine generelle Überlegenheit des einen oder anderen Systems besteht nicht.

Diesem Umstand tragen Screenreader-Hersteller wie folgt Rechnung:

Formant-synthetische und konkatenativ-synthetische Sprachsynthesizer werden bei der Sprachausgabenauswahl absolut gleichrangig behandelt.
Wenn im laufenden Betrieb der Sprachsynthesizer gewechselt wird, so spielt es keine Rolle, welche Syntheseart die beteiligten Sprachausgaben verwenden.
Für verschiedene Vorlesesituationen lassen sich geeignete Stimmen zusammenstellen und in sogenannten Sprachprofilen abspeichern. So lässt sich beispielsweise zunächst für das Kontroll-Lesen eines Dokuments ein Sprachprofil wählen, dessen Stimme durch Formant-Synthese erzeugt wird und für einen anderen Arbeitsgang zum fortlaufenden Anhören eines Textes, der nicht korrigiert, sondern nur inhaltlich erfasst werden muss, zu einem Sprachprofil mit konkatenativ-synthetischer Stimme umschalten.

Sprachausgabe

Arten von Sprachsynthesen

Unterschiede zwischen verschiedenen Verfahren der Sprachsynthese

Weiterführende Informationen