NaturallySpeaking Mobile: Mein PC versteht mich nicht

Die Spracherkennungssoftware NaturallySpeaking hat in der Version 5 einen grossen Wortschatz und immer noch Verständigungsschwierigkeiten.

Artikel erschienen in Swiss IT Magazine 2000/42

     

Alle Vielschreiber träumen von einem System, das ihnen die Tipparbeit abnimmt und dabei gegen den leidigen Tippfehlerteufel immun ist. Mit dem Release 5.0 von NaturallySpeaking verspricht einmal mehr Dragon, ein solches Wunderding anbieten zu können. Sehr gespannt haben wir die Software und das zugehörige Diktaphon einem Test unterzogen.


Installation einfach und schnell

Die Software lässt sich einfach und schnell installieren, setzt aber eine 16-Bit-Soundkarte voraus. Ebenso einfach lässt sich das in der Version NaturallySpeaking Mobile enthaltene Diktaphon in Betrieb nehmen. Zuerst wird man aufgefordert, die Uhrzeit einzustellen, was anhand einer guten Benutzerführung ohne Schwierigkeiten vor sich geht.



Danach ist das Gerät startbereit und kann über wenige Tasten, die an eine Hi-Fi-Remotecontrol erinnern, intuitiv und sofort richtig gehandhabt werden. Man wählt einen Ordner aus, in welchen man das Diktat ablegen will, drückt während des Sprechens die Rekordtaste und nimmt auf. Das Diktaphon kann bis zu 40 Minuten sprachliche Daten in digitalisierter Form abspeichern. Das Aufnahmeresultat kann man nachher sofort abspielen, um sicher zu gehen, dass keine Fehler diktiert wurden. Falls solche vorhanden sind, muss aber nochmals die ganze Aufnahme neu gemacht werden.





Verständigungsschwierigkeiten

Wenn Menschen miteinander sprechen, verstehen sie einander meist auf Anhieb, obschon das Gegenüber nuschelt, mit Dialekteinfärbung spricht oder Störgeräusche vorhanden sind. Eine Spracherkennungssoftware muss nun diese nicht vollständig normierten analogen Sprachsignale in digitale Form umwandeln.



Dies ist nur möglich, wenn zuerst die Eigenheiten jedes individuellen Sprechers in Zusammenhang mit einem spezifischen Aufnahmegerät (Diktaphon, internes Mikrofon, externes Mikrofon) der Software bekannt sind. Bestens geeignet für solche Aufnahmen sind, wie im Lieferumfang enthalten, Head-Sets, weil sich bei diesen das Mikrofon immer in idealer Distanz zum Mund befindet.




Bevor also mit dem Diktaphon ein Text aufgenommen und dann an die Software weitergegeben werden kann, muss ein Training absolviert werden, währenddessen die sprachlichen Eigenheiten registriert werden. Anders als sonstige externe Aufnahmegeräte wird das Diktaphon über den seriellen Port angeschlossen und über die Software Voice It Link gesteuert. Danach müssen Benutzer und das Eingabegerät festgelegt werden. Bevor nun das eigentliche Training beginnen kann, werden die Stimme und das Mikrofon aufeinander abgestimmt.



Und schon beginnen die Schwierigkeiten. Für diesen Vorgang muss ein kurzes Sätzchen vorgelesen werden. Aber offensichtlich gibt es mit einer etwas nuschelnden, verrauchten Männerstimme gewisse Erkennungsschwierigkeiten. Nach etwa fünf Minuten wird aber auch diese Stimme akzeptiert. Dagegen ist die klare und deutliche Sprechweise unserer Redaktionsassistentin schon nach dem dritten Versuch für das Programm verständlich.



Das anschliessende Training besteht aus einer etwa 30-minütigen Vorlesesession, bei welcher man immer wieder gewisse Worte wiederholen muss, die zuwenig deutlich waren. Offensichtlich bestehen gewisse Probleme bei der Unterscheidung von "i", "ä" und "e".




Keine Tippfehler, aber auch keinen Sinn

Mit dem Abruftool lassen sich die Sprachdaten sehr einfach vom Diktaphon über die serielle Schnittstelle auf den PC importieren. Erschreckend ist dann jedoch das Resultat des ersten umgesetzten Diktats: Eine Passage aus dem Manual zu NaturallySpeaking wird derart verstümmelt wiedergegeben, dass sie überhaupt keinen Sinn mehr ergibt. Obschon offensichtlich einige Textbausteine erkannt werden und das Programm über einen aktiven Wortschatz von 270'000 Wörtern verfügt, ist NaturallySpeaking nicht in der Lage, einen einigermassen korrekten Text wiederzugeben.



Nach der ersten Korrektur wurde dasselbe Diktat nochmals eingegeben, und das Resultat war besser, aber immer noch weit von einem korrekten Text entfernt. Es lässt sich wohl mit einem entsprechenden Training des Sprechers sowie der Erweiterung der abgespeicherten Wörter und Satzwendungen mit der Zeit ein besseres Ergebnis erzielen, doch braucht es dazu einen recht grossen Aufwand.




Werden in einem Sekretariat immer wieder Texte mit gleichen Formulierungen und keine freien Formulierungen mit etwas aussergewöhnlichen Satzstellungen verwendet, kann das Diktaphon und die Spracherkennungssoftware eine gewisser Erleichterung darstellen. Denn immerhin arbeitet das Programm recht schnell und setzt flüssig gesprochene Texte besser um als schleppend diktierte.



Sobald NaturallySpeaking geöffnet ist und das Mikrofon eingeschaltet, können über Sprachbefehle Programme gestartet und Fenster geöffnet werden. Dies funktioniert recht gut; man muss lediglich den Befehl "öffne" und den Programmnamen, wie er im Start-Menü angegeben ist, deutlich aussprechen. Nach dem selben Muster lässt sich im Internet Explorer navigieren und E-Mails verschicken.



Keine Schwierigkeiten hat die Spracherkennungssoftware mit den Kommandos für Satzzeichen-Anweisungen zur Gross-Klein-Schreibung. Damit die Kommandos nicht mehr richtig interpretiert werden, muss ziemlich undeutlich oder sehr leise gesprochen werden.


Beschränkte Lernfähigkeit der Software

Die Korrektureingabe ist recht einfach und schnell möglich, zudem stellt einem das Programm eine grosse Anzahl an möglichen Wörtern zur Korrektur zur Verfügung. Etwas weniger handlich ist die Korrektur ganzer Sätze, da sich die angegebenen Verbesserungsvorschläge nur wenig unterscheiden und daher nicht auf einen Blick ersichtlich ist, welches nun das richtige Angebot ist.



Insgesamt ist die vom Hersteller gepriesene Lernfähigkeit des Programms nicht sehr ausgeprägt. Ein freier Text, der sich gewisser literarischer Wendungen bedient, ist in der ersten Wiedergabe der pure Unsinn. Auch nach dem dritten Versuch mit anschliessender Korrektur ist eine fehlerfreie Wiedergabe nicht möglich.




Somit ist die Software zur Abfassung standardisierter Dokumente bis zu einem gewissen Grad geeignet. Da das Programm ganze Phrasen abspeichern und später wieder erkennen kann, wird es nach einer gewissen Zeit möglich sein, Briefe oder Texte mit gleichen Bausteinen nahezu fehlerfrei einzugeben. Somit lassen sich gewisse immerwiederkehrende Büroarbeiten mit NaturallySpeaking sicher bequem erledigt.



Kommen aber immer wieder andere sprachliche Formulierungen und ein zu exotischer Wortschatz zur Anwendung, kann man sich höchstens an den abstrusen Ergebnissen der Umsetzung amüsieren.



Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Welche Farbe hatte Rotkäppchens Kappe?
GOLD SPONSOREN
SPONSOREN & PARTNER