cnt

Speichertechnologien im Zeitalter von KI und Cybersecurity

Moderne Speichertechnologien können für Unternehmen ein Schlüssel sein, um Cybersecurity- und KI-Herausforderungen zu meistern – von der Abwehr von Ransomware bis zur Optimierung von KI durch Retrieval Augmented Generation (RAG).

Artikel erschienen in Swiss IT Magazine 2024/12

     

Prognosen über das weltweite Wachstum von Daten müssen aufgrund steigender Nutzung generativer KI ständig überarbeitet werden. Auch die Trends bei Data Breaches deuten auf ein beunruhigendes Wachstum hin, wie die 19. Ausgabe der Studie des Ponemon Institute zeigt (Cost of Data Breach Report 2024, https://www.ibm.com/reports/data-breach). Während sich Unternehmen und Institutionen darauf vorbereiten, die durch KI ermöglichten Chancen auf sichere und nachvollziehbare Weise zu nutzen, mit dem Ziel, durch KI zu «Value Creators» zu werden, gewinnt auch die Modernisierung der IT-Infrastruktur von Unternehmen an Bedeutung. Diese Modernisierung betrifft nicht nur die Softwareplattformen, welche Applikationen zur Nutzung von KI unterstützen, sondern auch die Systeme und die Hardware, welche die neuen Processing-, Kommunikations- und nicht zuletzt Speicheranforderungen unterstützen, um damit die Bedürfnisse von KI und Cybersecurity zu adressieren.

KI braucht effiziente Speicherlösungen

KI ist auf ein breites Spektrum von Speicherlösungen angewiesen, angefangen bei High-Performance- bis hin zu High-Capacity-Storage, mit unterschiedlichen Anforderungen an Zuverlässigkeit und Verfügbarkeit. Beispielsweise wird High-Performance-Storage benötigt, um teure GPUs während der Trainingsphasen von KI-Foundation-Models auszulasten. High-Capacity-Storage wird benötigt, um eine Übersicht über die kompletten Datensätze zu haben, die für das Training aufeinanderfolgender Modellversionen verwendet werden. Und da die Erzeugung solcher Outputs mit generativen KI-Modellen immer ressourcenintensiver wird, kann man die Berechnungen natürlich nicht einfach bei Bedarf wiederholen, so wie wir es bei Suchmaschinen gewohnt sind. Die Generierung eines kurzen hochauflösenden Films oder die Analyse einer riesigen Menge multimodaler Daten: All diese wertvollen Ergebnisse müssen gespeichert werden (anstatt nach der Verwendung gelöscht zu werden), damit sie in Zukunft als Referenz oder zur Einhaltung von Compliance-­Vorschriften dienen können.


Die bevorzugten Speichertechnologien, die diese unterschiedlichen Anforderungen erfüllen, sind wohlbekannt, nämlich Flash für die Geschwindigkeit und Performance und Tape für die Archivierung. Beide Technologien haben in den letzten zehn Jahren eine massive Steigerung der Speicherdichte verzeichnet, was zu einem Rückgang der Kosten pro Kapazitätseinheit geführt hat. Dieser Trend dürfte sich in absehbarer Zukunft fortsetzen, und zwar in einem noch schnelleren Tempo als bei Festplattenlaufwerken. Laut der jüngsten Roadmap des Information Storage Industry Consortium wird beispielsweise bei Tape ein Kapazitätssprung von derzeit 45 TB auf über 700 TB bis zum Jahr 2034 für machbar erachtet, ohne mit physikalischen Grundsätzen zu brechen. Parallel dazu wird erwartet, dass sich die Anzahl der 3D-Schichten bei NAND-Flash-Chips weiter verdoppelt, was die Dichte erhöht und die Produktionskosten senkt. IBMs eigenen konservativen Prognosen auf der Grundlage historischer Industriedaten über ausgelieferte Kapazitäten und Einnahmen deuten darauf hin, dass der Unterschied bei den Kosten pro Kapazitätseinheit zwischen Festplatte und Tape bis 2034 von einem Faktor 8 auf 15 steigen könnte, während der Unterschied zwischen Flash und Festplatte im gleichen Zeitraum von einem Faktor 3 auf weniger als 1 sinken könnte. Mit wachsender Kapazität wird der Grossteil der Kosten für Speichersysteme zunehmend von den Speichermedien selbst bestimmt. Daher sind die oben genannten Schätzungen ein guter Näherungswert für die Gesamtkosten der Speicherinfrastruktur.

Cybersecurity beginnt auf der Storage-Ebene

Speichersysteme für Unternehmen entwickeln sich ständig weiter und beschränken sich nicht mehr nur auf Block-, File-, oder Object-Storage. Sie verbessern die Leistung durch Distributed Caching, gewährleisten Zuverlässigkeit und Verfügbarkeit durch Erasure-Coding und Geo-Replikation, reduzieren den Datenumfang durch Deduplizierung und Komprimierung und sichern Inhalte durch Authentifizierung und Verschlüsselung.

Eine weitere Aufgabe, die von Speichersystemen erwartet wird, ist die Cybersicherheit, da die durch Data Breaches verursachten Kosten in die Höhe schnellen. Innerhalb der Speichersysteme sind die SSDs selbst von entscheidender Bedeutung für die sofortige Erkennung von böswilligen Angriffen auf Daten, angefangen bei Ransomware-Angriffen. Und da die Angreifer ihr Vorgehen immer weiter verbessern, wird jetzt Künstliche Intelligenz eingesetzt, um harmlose von bösartigen Aktivitäten schnell zu unterscheiden, mit dem Ziel, auch bisher unbekannte Arten von Angriffen zu erkennen und sie innerhalb von Minuten zu stoppen. Und das alles, ohne die Performance der Anwendung beim Zugriff auf die Daten zu beeinträchtigen – eine echte Herausforderung für Forschung und Technik!


Der Unterschied im Hinblick auf den Wiederherstellungsaufwand ist enorm: Die Erkennung eines Angriffs innerhalb von Minuten, wenn erst wenige Daten betroffen sind, ist wesentlich einfacher und weniger kostspielig als eine Reaktion nach mehreren Tagen, wenn vielleicht schon Petabytes an Daten durch Ransomware verschlüsselt oder durch Wiperware gelöscht wurden.

Storage macht KI effizienter

Neben der Cybersicherheit profitiert auch KI von der aktiven Einbeziehung von Speichersystemen. Dies geht über die Bereitstellung oder Speicherung verschiedener Artefakte während der Erstellung ­eines KI-Modells hinaus. Vergleichen wir dies mit Datenbanken und Data Ware­houses, die als Werkzeuge zur Auswertung strukturierter Daten dienen, oder mit Content-Management-Systemen, die strukturierte und unstrukturierte Daten organisieren: Generative KI lässt sich als Werkzeug betrachten, mit dem sich unstrukturierte Daten auf bisher nicht mögliche Weise interpretieren lassen, sodass wichtige Informationen daraus abgeleitet werden können. Und genau hier werden Speichertechnologien eine wichtige Rolle spielen.

Eine Schlüsselkomponente von generativer KI ist Retrieval Augmented Generation (oder RAG). RAG erweitert die zugrundeliegenden Daten eines KI-Modells um zusätzliche Inhalte, die nicht Teil des Trainingsdatensatzes des Modells sind. In einer Enterprise-Umgebung können solche zusätzlichen Inhalte alle Arten von strukturierten oder unstrukturierten proprietären oder neu erstellten Unternehmensdaten umfassen. RAG ermöglicht es, die von der KI erzeugten Informationen so zu differenzieren, dass sie für das jeweilige Unternehmen und den Benutzer eindeutig relevant sind. Der Prozess von RAG wird in der folgenden Abbildung beschrieben, wobei die Vektordatenbank verschiedene Unternehmensdaten repräsentiert, die einen spezifischen Kontext liefern, um die Eingabeaufforderung, die an ein grosses Sprachmodell gesendet wird, zu verbessern.


Auch die Flash-Speichertechnologie wird sich weiterentwickeln, um KI-Operationen weiter zu beschleunigen: Es gibt Bemühungen, die Effizienz des AI-Inferencings zu verbessern, also die Berechnung, welche jede Eingabe mit den Millionen bis Billionen von Parametern eines KI-Modells erfordert. Andere Bemühungen zielen auf RAG ab, dass die Abfrage anhand von Millionen oder sogar Milliarden von Vektoren erfordert. In den nächsten Jahren dürften neuartige In-Memory- oder In-Storage-Computing-Ansätze enorme Verbesserungen bringen, indem sie die physischen Datentransfers drastisch reduzieren und den bekannten Von-Neumann-Flaschenhals umgehen, der alle heutigen KI-Infrastrukturen beeinträchtigt.

Eine aktive Rolle für Speichertechnologie

Die Zukunft der Datenspeicherung wird zweifellos den Entwicklungen von Cybersecurity und KI folgen. Wie hier dargelegt, wird die Speichertechnologie eine zunehmend aktive und optimierende Rolle einnehmen. Sie kann beispielsweise verdächtige Zugriffsmuster fast in Echtzeit erkennen und anzeigen, oder Unternehmensdaten auswerten, um mit KI neue Erkenntnisse zu gewinnen, die wiederum die nächste Generation der agentenbasierten KI unterstützen.


Bereits vor drei Jahren hat «Swiss IT Magazine» in einem Artikel zum Thema KI (Ausgabe 12/2021, «KI macht grosse Schritte») geschrieben, dass KI neue Herausforderungen hinsichtlich Leistung und Kapazität für die Datenspeicherung mit sich bringen wird. In der Zwischenzeit hat sich das Ausmass dieser Herausforderungen, aber auch der Chancen, enorm vergrössert. Man muss davon ausgehen, dass Unternehmen in Zukunft auch in der Lage sein werden, die sogenannten Dark Data anzuzapfen, die mehr als die Hälfte der Gesamtdaten von Organisationen ausmachen. Diese bleiben laut verschiedener Studien ungenutzt, anstatt damit gefährliche Aktivitäten, von Ransomware bis hin zu anderen Formen von Datenmissbrauch, effektiv zu bekämpfen. Dies ist die neue Herausforderung, die KI und Speichersysteme gemeinsam in eine Chance verwandeln werden.

Der Autor

Robert Haas ist Leiter für KI- und Speichertechnologieinnovationen bei IBM Research Europe in Rüschlikon/Zürich. Gemeinsam mit seinem Team und Partnern aus Industrie und Forschungseinrichtungen hat er Innovationen vorangetrieben, die zu weltweit anerkannten Forschungsergebnissen, Industry-first Demonstrations und neuen Produkten geführt haben, die alle für eine sicherere und nachhaltigere IT-Infrastruktur sorgen.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Welche Farbe hatte Rotkäppchens Kappe?
GOLD SPONSOREN
SPONSOREN & PARTNER