Quelle: Google

Google I/O 2024: KI-Suche, Video-KI und viel KI für Android

Google liess an seiner Entwicklerkonferenz I/O ein Feuerwerk an KI-Funktionen ab: Das KI-Modell Gemini wird noch leistungsfähiger, es gibt eine Pro-Version, für Creators kommt eine Video- und eine Text-zu-Bild-KI. Aber auch Android-Nutzer dürfen sich auf zahlreiche Neuerungen freuen.

15. Mai 2024

Google hat am Dienstagabend an seiner Entwicklerkonferenz diverse neue Produkte angekündigt. Die diesjährige Google I/O fokussierte vor allem auf Künstliche Intelligenz (KI) und das vorgestellte KI-Lineup des Tech-Konzerns kann sich sehen lassen: AI Overviews für die Suche, Gemini 1.5 Flash, die Video-KI Veo sowie die Bild-zu-Text-KI Imagen 3. Doch der Reihe nach.

KI-Assistent Gemini
Googles KI-Modell Gemini wird leistungsfähiger. Neu ist eine Version namens Gemini 1.5 Flash, eine kleinere und schnellere Variante. Die bisherige Pro-Version, jetzt Gemini 1.5 Pro (Gemini-Advanced-Abonnenten), erhält ein Facelift und kommt ab sofort mit einem grösseren Kontextfenster, das bei 1 Million Token beginnt. Token sind die Einheit der Daten, die von LLMs verarbeitet werden können. Das bedeutet, dass Gemini Advanced mehrere grosse Dokumente (bis zu 1500 Seiten oder 100 E-Mails) zusammenfassen kann. Künftig soll es in der Lage sein, eine Stunde Videoinhalte oder Code mit mehr als 30'000 Zeilen zu verarbeiten. Sowohl Gemini 1.5 Flash als auch Pro sind ab sofort weltweit in der Vorschauversion verfügbar. Der allgemeine Start soll im Juni erfolgen.

Zudem soll man in Google Messages mit Gemini chatten können und Gemini Live (für Advanced-Abonnenten) wurde dank integrierter Sprachtechnologien natürlicher und intuitiver, so Google. Künftig soll die Interaktion mit Google KI-Assistenten auch in Google Calendar, Tasks oder Keep möglich sein.

Die US-Anbieter von KI-Sprachmodellen liefern sich derzeit einen harten Wettkampf. Nur 24 Stunden vor Googles Entwicklerkonferenz verkündete Konkurrent Open AI die Lancierung seines kostenlosen KI-Assistenten GPT-4o ("Swiss IT Magazine" berichtete).

Veo und Imagen 3

An der Google I/O wurde ausserdem ein KI-Modell zur Erstellung von Bewegtbild präsentiert, das Veo heisst. Veo ist Googles bisher leistungsstärkstes Modell für hochauflösende Videos (1080p-Auflösung) und kann Inhalte auf Basis von Prompts erstellen. Veo soll durch ein fortgeschrittenes Verständnis von natürlicher Sprache und visueller Semantik Videos erstellen können, die genau den Vorstellungen des Nutzers entsprechen – und sogar den Tonfall einer Eingabeaufforderung einfangen. Veo ist ab sofort für ausgewählte Creators in einer privaten Vorschau in VideoFX verfügbar (man kann sich auf eine Warteliste setzen lassen). Künftig sollen Veo-Features auch für Youtube Shorts und weitere Produkte zur Verfügung stehen.

Das bisher fortgeschrittenste Modell für Text-zu-Bild aus dem Hause Google heisst Imagen 3. Imagen 3 kann sehr viele Details erzeugen und so fotorealistische Bilder mit weniger störenden visuellen Artefakten als frühere Modelle erstellen. Imagen 3 versteht natürliche Sprache, soll gar die Absicht hinter einer Eingabeaufforderung verstehen, und eine Reihe von Stilen beherrschen. Google nennt es das bisher beste Modell für das Rendern von Text und soll neue Möglichkeiten für Geburtstagsnachrichten, Titelfolien in Präsentationen et cetera eröffnen. Imagen 3 ist ab sofort für ausgewählte Ersteller (Creators) in der privaten Vorschau in ImageFX (Warteliste) verfügbar und soll demnächst auch für Vertex AI erhältlich sein. Weitere Informationen sind in diesem Blogbeitrag zu finden.

KI in der Google Suche, Ask Photos und Android

Ein Highlight ist sicher, dass Google künftig in der Suche das Fragen mittels Video ermöglicht. Die klassische Text-Suchmaschine wird zwar weiterhin bestehen bleiben, hinzu kommt nun aber eine Video-Suche namens AI Overview. Nutzer nehmen bei dieser ein Video auf und lassen sich anschliessend von der KI mit passenden Vorschlägen helfen. AI Overviews wurden im Rahmen eines Google-Experiments in den Search Labs milliardenfach getestet, so Google. Die Feedbacks waren offenbar so zufriedenstellend, dass Google AI Overwiev ab sofort für alle Nutzer in den USA eingeführt wird, weitere Länder sollen folgen.

Und wer gerne seine zahlreichen Fotos durchsucht: Auch hier kommt Gemini künftig zum Einsatz und soll es einfacher machen, spezifische Bilder rasch zu finden. Beispielsweise kann ein Nutzer fragen, wo er letztes Jahr gezeltet hat und wann Gutscheine ablaufen. Die KI soll den Kontext beziehungsweise das Thema von Fotos verstehen und Details herausfiltern können.

Last but not least schwärmt Google, man habe dank Google AI im Betriebssystem die Interaktion mit dem Android-Smartphone "neu erfunden". Circle to Search, das direkt in die Benutzeroberfläche integriert ist, kann man nach allem, was man auf dem Smartphone sieht, mit einer Geste suchen. Nutzer müssen somit weder die Arbeit unterbrechen noch eine App öffnen. Beispielsweise kann Circle to Search bei den Mathehausaufgaben helfen und soll eine Schritt-für-Schritt-Anweisung zur Lösung bieten. Künftig soll die Funktion noch komplexere Probleme wie Formeln oder Diagramme lösen können. Circle to Search erhielt seit der Bekanntmachung am Samsung Unpacked Event neue Funktionen wie eine Vollbildübersetzung und die Verfügbarkeit wurde auf weitere Google Pixel- und Samsung-Geräte ausgedehnt.

Zudem hat Google Gemini on Android optimiert, um Kontext besser zu verstehen. Gemini on Android ist eine neue Art von Assistent auf Basis von Generativer KI, der direkt in Android integriert ist. Gemini on Android soll bald weitere Funktionen erhalten wie generierte Bilder per Drag & Drop in Google Mail oder Google Messages zu ziehen. Wer das kostenpflichtige Gemini Advanced nutzt, kann zudem "Frag dieses PDF" verwenden, um PDF-Dokumente rasch zu analysieren. Dieses Update wird in den kommenden Monaten ausgerollt.

Mit Gemini Nano verstehen Android-Geräte nicht nur Texteingaben, sondern können auf Informationen wie Sehenswürdigkeiten, Geräusche oder gesprochene Sprache reagieren. Dies wird zunächst für Pixel-Geräte eingeführt, später soll Gemini Nano ausserdem für Talk Back zur Verfügung stehen, um Menschen mit Beeinträchtigungen zu helfen. Mehr Informationen zu den genannten Funktionen gibt es über diesen Link. (cma)