Databricks, Anbieter einer Data-Lakehouse-Plattform, hat das KI-Sprachmodell Dolly 2.0 – die sprachliche Assoziation zu Dall-E 2 liegt nahe – zur freien wissenschaftlichen und kommerziellen Nutzung quelloffen publiziert. Dolly 2.0 ist ein Klon des Open-Source-KI-Modells Pythia-12B
von der Organisation EleutherAI und ist von der Funktion her ähnlich ChatGPT für die Interaktion mit Menschen konzipiert. Im Gegensatz zum ChatGPT-Angebot von OpenAI lässt sich Dolly 2.0 ohne kostenpflichtigen API-Zugang auch für kommerzielle Anwendungen nutzen. Zudem würden keinerlei Nutzerdaten mit Dritten geteilt, versichern die Entwickler
in einem Blogpost zur Veröffentlichung.
Allerdings zählt Dolly 2.0 mit 12 Milliarden Parametern nicht zu den grössten Large Language Models (LLMs). Die fortgeschrittensten LLMs arbeiten teils mit hunderten Milliarden Parametern – benötigen für den Betrieb aber auch deutlich mehr Ressourcen. Dolly 2.0 soll primär dazu dienen, dass Organisationen darauf aufbauend eigene LLMs bauen und spezifisch auf ihre Anwendungen zuschneiden können. Dazu haben haben über 5000 Mitarbeitende von
Databricks an einem Trainings-Datensatz für die Feinabstimmung von Dolly 2.0 mitgewirkt, der 15'000 von Menschen trainierte Prompt-Antwort-Paare enthält, statt einen von einem anderen Modell abgeleiteten Datensatz zu verwenden – es handle sich um den ersten menschengemachten Datensatz für das Training von LLMs. Veröffentlicht wurde nun der Code des LLM, der Datensatz databricks-dolly-15k sowie die entsprechenden Gewichtungen unter der Cerative-Commons-Lizenz Attribution Sharealike 3.0.
(ubi)