Google hat seine
Cloud Speech API 2016 lanciert und nun merklich verbessert und erweitert. Wie einem
Blogbeitrag zu entnehmen ist, ist die Spracherkennung, die dank maschinellem Lernen Sprache in Text umwandeln kann, neu in der Lage, Audiodateien von bis zu drei Stunden Länge zu verarbeiten. Bisher lag die maximale Länge bei 80 Minuten. Weiter bietet der Dienst nun Timestamps für jedes einzelne Wort des Textes, so dass Nutzer mittels einer Suche nun zu einzelnen Wörtern in der Audiodatei springen können.
Bisher war die
Google Speech API in der Lage, 89 Sprachen zu erkennen und zu transkribieren, mit dem Update kommen 30 Sprachen hinzu, die von über einer Milliarde Menschen gesprochen werden. Diese umfassen etwa die amharische Sprache, die in Äthiopien gesprochen wird, sowie armenisch, georgisch, nepalesisch und verschiedene indische Sprachen (eine vollständige Liste der unterstützten Sprachen findet sich
hier). Eigenen Angaben zufolge will Google damit mehr Menschen erreichen und ihnen die Dienstleistung zur Verfügung stellen.
(luc)