Eine Allianz aus sieben Organisationen formt gemeinsam die Dataset Providers Alliance (DPA) –
laut "Reuters" die erste Handelsgruppe der Branche, die sich dem Verkauf von Datensätzen für das Training von KI-Systemen verschrieben hat. Die Allianz schreibt sich weiter auf die Fahne, sich für die "ethische Datenbeschaffung" einzusetzen. Zusammengesetzt ist die Gruppe aus verschiedenen Anbietern von Trainings-Datensätzen aus den Bereichen Musik, Bild und Video. Mit an Bord sind Stand heute Rightsify (Musik), GCX (Musik & Stimmen), Vaisual (Bilder), Pixta (Bilder), Ado (Bilder), Calliope Networks (Text, Video & Bilder) sowie Datarade (Bilder).
Laut Website setzt sich die Allianz für Transparenz, Standardisierung und die Sensibilisierung aller beteiligten Parteien beim Datenhandel für KI-Trainings ein. Man wolle den Dialog zwischen Dataset-Providern, der KI-Forschung und Industriepartnern vorantreiben und nicht zuletzt auch für die Rechte der Urheber einstehen. Besonders Letzteres scheint dringend notwendig zu sein – spätestens seit der GenAI-Hype Anfang 2023 richtig ins Rollen kam, ist regelmässig von Problemen zwischen KI-Anbietern und Urhebern wie Medienhäusern oder Musikern zu hören.
Die Mitglieder der Gruppe verpflichten sich mit der Mitgliedschaft, gewisse Regeln einzuhalten und beispielsweise keine Textinhalte zu verkaufen, die durch Crawling gesammelt wurden. Weiter sollen etwa Stimmen echter Menschen nur mit deren ausdrücklicher Einwilligung in Trainingsdatensätzen verkauft werden.
Im Juli soll ein Whitepaper der DPA erscheinen, in dem die genauen Anforderungen und Positionen ausformuliert werden.
Auf der Website der DPA kann man sich als Datenhändler bewerben und der Allianz anschliessen.
(win)