Seriöse KI-Trainingsdaten sind ein gesuchtes und teures Gut, das sich in grösserem Umfang nur finanzkräftige grosse Tech-Unternehmen leisten können. Dem will die Harvard University
laut einem "Wired"-Artikel jetzt entgegentreten und einen riesigen Datensatz mit dem Inhalt von rund einer Million Public-Domain-Büchern zur freien Nutzung bereitstellen. Es soll sich um Bücher aller Genres und in verschiedensten Sprachen handeln, deren Copyright abgelaufen ist – was zum Beispiel für die meisten Klassiker von Shakespeare bis Dickens gilt.
Manche Buchinhalte liegen aufgrund von Googles Scanning-Projekt
Google Books bereits digitalisiert vor. Google ist damit ebenfalls in das Harvard-Projekt involviert, das die Law School Library der Universität erstmals Ende März 2024 unter dem Namen Institutional Data Initiative angekündigt hat und das soeben offiziell lanciert wurde. Neben literarischen Werken spielen dabei auch juristische Texte eine Hauptrolle, es soll ein "vertrauenswürdiger Kanal für juristische Daten für KI" entstehen. Die offizielle Launch-Ankündigung nennt überdies Microsoft und OpenAI als Finanzgeber für das Projekt. Wann genau der ganze Bücherschatz konkret bereitsteht, ist noch nicht klar.
(ubi)