Im vergangenen Jahr hat Mozilla daran gearbeitet, seine
Common Voice Initiative um Open Source Spracherkennungsdatensätze in weiteren Sprachen zu erweitern. Mozilla hatte Common Voice im Juni 2017 erstmals angekündigt und lud Freiwillige aus der ganzen Welt ein, Textausschnitte mit ihrer Stimme über Web und mobile Apps aufzunehmen.
Jetzt hat die Organisation die neuste Version von Common Voice veröffentlicht, die nunmehr in 18 verschiedenen Sprachen verfügbar ist, darunter Niederländisch, Hakha-Chin, Esperanto, Farsi, Baskisch, Spanisch, Französisch, Deutsch, Mandarin-Chinesisch (traditionell), Walisisch und Kabyle. Die Sammlung besteht aus 1400 Stunden aufgezeichneten Sprachclips von 42'000 Mitwirkenden.
Dabei handelt es sich um einen der grössten mehrsprachigen Datensätze seiner Art, behauptet
Mozilla, und der Korpus soll bald noch grösser werden. Das Unternehmen sagt, dass die Datenerhebung in 70 Sprachen aktiv im Gange ist.
(swe)