Ein Forschungsteam von
Microsoft beschäftigt sich mit einer neuen Anwendung des KI-Chatbots ChatGPT: Visual ChatGPT soll aus Texteingaben Bilder generieren, wie einem
Forschungspaper und einem
Github-Projekt zu entnehmen ist. Neben der Grundfunktionalität von ChatGPT werden dabei Bilderzeugungsmodelle wie Stable Diffusion, Blip oder Pix2Pix genutzt. Ein Prompt Manger gibt jeweils an, welcher Bildgenerator sich für die gewünschten Anforderungen am besten eignet oder wann ein Bildgenerator zum Einsatz kommen soll.
Darüber hinaus soll Visual ChatGPT auch Gegenstände in den generierten Bildern erkennen können. Und falls das Ergebnis noch nicht dem Gewollten entspricht, soll sich das Bild mithilfe von neuen Eingaben iterativ anpassen lassen. Eine weitere Fähigkeit von Visual ChatGPT: Der Bot kann Eigenschaften der Bilder in Textform ausgeben und zum Beispiel die Frage beantworten, welche Farbe die Wand im aktuellen Bild habe – siehe Bildstrecke.
Momentan liegt Visual ChatGPT als öffentlich zugängliche Vorschau auf Github vor. Wann und in welcher Form der Dienst für ein breites Publikum lanciert wird – zum Beispiel innerhalb der Bildersuche von Bing oder in Teams eingebaut – ist bisher unklar.
(ubi)