Harvard Uni und Google stellen Bücher für KI-Training bereit

Die Harvard University will einen riesigen Datensatz mit Inhalten von Public-Domain-Büchern und weiteren Texten, etwa aus der Justiz, zur freien Nutzung für das Training von KI-Modellen bereitstellen.

15. Dezember 2024

Seriöse KI-Trainingsdaten sind ein gesuchtes und teures Gut, das sich in grösserem Umfang nur finanzkräftige grosse Tech-Unternehmen leisten können. Dem will die Harvard University laut einem "Wired"-Artikel jetzt entgegentreten und einen riesigen Datensatz mit dem Inhalt von rund einer Million Public-Domain-Büchern zur freien Nutzung bereitstellen. Es soll sich um Bücher aller Genres und in verschiedensten Sprachen handeln, deren Copyright abgelaufen ist – was zum Beispiel für die meisten Klassiker von Shakespeare bis Dickens gilt.

Manche Buchinhalte liegen aufgrund von Googles Scanning-Projekt Google Books bereits digitalisiert vor. Google ist damit ebenfalls in das Harvard-Projekt involviert, das die Law School Library der Universität erstmals Ende März 2024 unter dem Namen Institutional Data Initiative angekündigt hat und das soeben offiziell lanciert wurde. Neben literarischen Werken spielen dabei auch juristische Texte eine Hauptrolle, es soll ein "vertrauenswürdiger Kanal für juristische Daten für KI" entstehen. Die offizielle Launch-Ankündigung nennt überdies Microsoft und OpenAI als Finanzgeber für das Projekt. Wann genau der ganze Bücherschatz konkret bereitsteht, ist noch nicht klar. (ubi)

Microsoft dementiert KI-Training mit Word- und Excel-Daten

29. November 2024 - Microsoft hat Behauptungen dementiert, wonach Anwenderdaten aus Word oder Excel dazu benutzt werden, um grosse KI-Sprachmodelle zu trainieren.

Linkedin nutzte User-Daten für KI-Training ohne zu fragen

20. September 2024 - Beim Karrierenetzwerk Linkedin wurde User-Daten ungefragt fürs Training von KI-Modellen verwendet. User in der Schweiz und der EU waren davon allerdings nicht betroffen.

Händler von KI-Trainingsdaten schliessen sich zu Allianz zusammen

27. Juni 2024 - Die Dataset Providers Alliance ist eine neu gegründete Handelsgruppe aus verschiedenen Anbietern von Datensätzen fürs KI-Training. Die Gruppe fordert die Einhaltung und Durchsetzung eines transparenten und sauberen Handels mit Trainingsdaten.

Artikel kommentieren