Vergleichstest: Spracherkennungstools

Spracherkennungssoftware liess bis anhin stark zu wünschen übrig. InfoWeek wollte wissen, ob die neuesten Lösungen aufgeholt haben.

Artikel erschienen in Swiss IT Magazine 2002/24

     

Der Computer, der einem jeden Wunsch von den Lippen abliest, ist schon fast ein Traum der Menschheit. Ganz so weit ist es zwar noch nicht, aber mit Hilfe eines modernen Spracherkennungsprogramms können immerhin schon mal Texte diktiert und der PC bedient werden. In den vergangenen Jahren vermochte kaum eine Applikation die gewünschten Resultate zu liefern.



Wir wollten wissen, ob die jüngsten Releases, ViaVoice Professional 8 von IBM und VoiceOffice Premium 8.5 von Mende Speech Solutions für den Office-Alltag genügen.


Wer versteht wieviel?

Ein wichtiges Kriterium zur Beurteilung des Leistungsumfangs von Spracherkennungssoftware ist deren vorprogrammierter Wortschatz. Denn nur Wörter, die das Programm kennt, können verstanden werden. Beim Vergleich dieses Kriteriums muss allerdings darauf geachtet werden, dass man dieselben Einheiten gegenüberstellt. Im gedruckten Begleitmaterial von VoiceOffice Premium ist zum Beispiel von einem 190'000 Wörtern umfassenden Basisvokabular die Rede. Im Internet wird der Wortschatz des Programms allerdings mit einer Million Wörtern angegeben, was übrigens dem Umfang von ViaVoice entspricht.



Der Unterschied lässt sich einfach dadurch erklären, dass im ersten Fall von Wörtern und im zweiten Fall von Wortformen die Rede ist. Grammatikalische Wortformen muss ein Spracherkennungsprogramm als einzelne Wörter speichern. So gibt es in der deutschen Sprache etwa 4 bis 5 Mal so viele Wortformen wie Wörter.





Übung macht den Meister

Bevor man nun dem Computer Texte diktieren kann, muss das Programm erst die Aussprache und Stimmlage des Users erlernen. Dazu gibt es bei beiden Programmen einen identischen Guide, der von IBM stammt.



Zu Beginn wird dafür gesorgt, dass das Headset richtig angeschlossen und eingestellt wird. Danach muss ein Probetext gelesen werden. Während dem Vorlesen zeigt der Guide im Text an, inwieweit die Software mitfolgen kann. Falls ein Wort nicht verstanden wird, ertönt ein Signal und das entsprechende Wort wird hervorgehoben, worauf der Text noch einmal von der bezeichneten Stelle an gelesen werden muss.




Insgesamt stehen vier Texte zur Verfügung, wovon mindestens einer diktiert und von der Software verarbeitet werden muss. Je mehr man allerdings sein Programm trainiert, umso bessere Resultate können erwartet werden.




Grundwortschatz und Spezialwortschatz

Wie eingangs erwähnt, sind die Programme mit einem Grundwortschatz der deutschen Sprache ausgestattet. Je nachdem, in welchem Berufsfeld ein User arbeitet, wird er einen Spezialwortschatz verwenden. Dies gilt besonders für Juristen oder Ärzte, aber auch andere Berufe haben natürlich ihren eigenen Wortschatz.



Deshalb hat man in beiden Lösungen die Möglichkeit, eigene, typische Texte analysieren zu lassen. Die Texte, die im Word-, RTF-, TXT- oder HTML-Format vorliegen können, werden in das Programm eingelesen. Darauf werden die Texte analysiert und unbekannte Wörter herausgefiltert. Diese Wörter kann der User im Anschluss vorlesen, so dass die Spracherkennungssoftware ihren Wortschatz entsprechend erweitern kann.





ViaVoice Pro 8.0

Das zentrale Element der Spracherkennungssoftware von IBM ist die Navigationszentrale, die wahlweise als eine weitere Taskleiste oder in einem separaten Programmfenster bedient werden kann.



Texte können in ViaVoice's eigenes, WordPad-ähnliches Textverarbeitungsprogramm namens SpeakPad oder aber in Word diktiert werden, was nach der Installation des mitgelieferten Word-Upgrades genau so komfortabel ist. Schliesslich kann mit ViaVoice auch in andere Applikationen diktiert werden, was besonders in Kombination mit den sprechbaren Befehlen Sinn gibt.




Selbst bei noch so gründlicher Einschulung des Programms können Fehler und Missverständnisse anfangs kaum vermieden werden. Dagegen kann man während dem Diktieren das Programm weiter schulen, indem man die in ViaVoice eingebaute Fehlerkorrektur verwendet. Missverstandene Wörter und Ausdrücke werden mit der Maus oder mit einem Sprachbefehl markiert. Wenn man nun das Korrekturfenster aufruft, kann man sich anhören, wie das falsch erkannte Wort ausgesprochen wurde. Oder man kann aus einer Liste das richtige Wort auswählen.



Allerdings gibt es Probleme, wenn ein Wort nicht im Vokabular vorhanden ist. Wohl kann das entsprechende Wort manuell eingetippt werden, aber damit ist es noch nicht im Vokabular aufgenommen. Der einzige Weg, das Vokabular des Programms zu erweitern, ist der oben beschriebene Guide. Da wäre eine Möglichkeit, einzelne Wörter hinzufügen zu können hilfreich gewesen, wie dies zum Beispiel bei der Rechtschreibüberprüfung vieler Textverarbeitungsprogramme machbar ist.



Obwohl in den Einstellungen und der Dokumentation von ViaVoice im Zusammenhang mit Währungen durchwegs die Rede von Mark (DM) ist, sind der Euro und der Schweizer Franken ebenfalls unterstützt - jedenfalls theoretisch. Der Test hat gezeigt, dass gerade Zahlen und Währungen recht schwierig zu diktieren sind.



Ein anderes Manko ist die fehlende Unterstützung der Schweizer Rechtschreibung. Während der Installation kann lediglich zwischen alter und neuer deutscher Rechtschreibung gewählt werden.



Dafür kann ViaVoice auch als Text-to-Speech-System eingesetzt werden. Diktierte Texte können in SpeakPad oder Word mit der eigenen Stimme vorgelesen werden. Andere Texte, beispielsweise die einer Homepage, können durch den Assistenten Woodrow, der auch in anderen Bereichen dem User hilfsbereit zur Seite steht, vorgelesen werden.




VoiceOffice Premium 8.5

Wie bereits erwähnt, stammt der Audio-Setup-Guide sowie der Trainingsassistent in VoiceOffice Premium von ViaVoice. Auch der Lieferumfang der beiden Programme ist vergleichbar. Trotzdem gibt es eine Reihe gewichtiger Unterschiede zwischen den beiden Programmen.



Die Unterschiede fangen bereits bei der Bedienung an. Das Navigations- und Kontrollzentrum von VoiceOffice Premium ist ein sehr kleines Fenster, das normalerweise am Bildschirm unten rechts zu finden ist und einen schneidenden Kontrast zu der zusätzlichen Taskleiste von ViaVoice bildet. Zwar ist das Applikationsfenster dadurch wesentlich diskreter, allerdings ist dessen Bedienung nicht annähernd so selbsterklärend, wie dies bei der ViaVoice-Taskleiste der Fall ist.




VoiceOffice enthält keine eigene Diktierapplikation, sondern lässt sich mit einer Reihe Standardapplikationen zusammen verwenden. Die Integration in Word wird mit entsprechenden Macros bewerkstelligt. Dabei unterstützt VoiceOffice Word 95/97 sowie die 2000er und XP-Versionen. Für den praktischen Test stand uns Word 97 und 2000 zur Verfügung. Dabei fiel auf, dass die Macros für diese beiden Word-Versionen zum Teil recht unterschiedlich waren. Besonders deutlich zeigte sich dies beim Korrigieren von missverstandenen Ausdrücken. Das Handbuch von VoiceOffice erläutert ausschliesslich die Arbeit mit Word 2000. Die dort angegebenen Arbeitsschritte liessen sich jedoch nicht unter Word 97 durchführen, so dass die für die Anpassung der Spracherkennungssoftware so wichtige Korrektur nicht durchführbar war.



Aber auch die Macros unter Word 2000 zeichneten sich weder durch hervorragende Geschwindigkeit noch Stabilität aus.



Dafür bietet VoiceOffice Premium ausgezeichnete Möglichkeiten zur Pflege des Vokabulars. Die Einzelwortaufnahme, die wir in ViaVoice vermissten, war hier möglich, ebenso die weitere Verarbeitung von Wörtern, die mit Hilfe von persönlichen Texten hinzugefügt wurden.



Die Vokabularerweiterung kann in VoiceOffice Premium übrigens auf zwei Arten durchgeführt werden: Zum einen durch die Analyse eigener Texte, wie dies auch bei ViaVoice der Fall ist, zum anderen bietet Mende Speech Solutions auch eine kostenlose Vokabularanpassung an. Bis 1000 persönliche Dateien können - auf Wunsch anonymisiert - dem Produzenten zur Verarbeitung zugesandt werden. Daraufhin erhält der Kunde eine Diskette mit 500 Spezialwörtern aus seinen Texten.




Sprachgesteuerte Bedienung

In beiden Programmen lassen sich ausserdem Standardapplikationen per Sprache bedienen. So ist es beispielsweise möglich, Anwendungen zu öffnen, im Internet zu surfen, Zeilen oder Zellen zu markieren und so weiter, ohne die Maus oder Tastatur berühren zu müssen. Allerdings erfordert dies wesentlich mehr Übung und Geduld als gewöhnliches Diktieren. Zumindest anfänglich wird jeder einigermassen geübte PC-User mit Maus und Tastenkombinationen schneller sein. Zudem erfordert Sprachbedienung das Auswendiglernen der entsprechenden Befehlen. Zwar wird dies in beiden Programmen durch eine spezielle Online-Hilfe und ein Faltblatt erleichtert, aber will man damit auch Zeit gewinnen, hilft es wenig, wenn man die einzelnen Befehle zuerst auf einer Liste finden muss.



Zur Erweiterung von Befehlen bieten beide Applikationen unterschiedliche Tools an. ViaVoice arbeitet mit Macros, wobei sowohl Diktiermacros als auch Befehlsmacros aufgenommen werden. Ähnlich wie bei den Macros einer Textverarbeitung können so häufig gebrauchte Vorgänge als ein neuer Befehl zusammengefasst werden. VoiceOffice bietet vor allem die Möglichkeit, den Befehlssatz zu erweitern. Dies geschieht im Dialog-Explorer, der, wie der Name schon antönt, im Design und der Bedienung stark an den Windows-Explorer erinnert. In dieser Applikation können auf einfache Weise bestehende Befehle redigiert und neue errichtet werden.




Zudem in der Print-Ausgabe: ViaVoice Pro versus VoiceOffice Premium - die Features im Vergleich



Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wie hiess im Märchen die Schwester von Hänsel?
GOLD SPONSOREN
SPONSOREN & PARTNER