Datenklassifizierung im Zeitalter von LLMs: Eine technische Vertiefung

Geschrieben von David Gibson | Feb 23, 2026 1:30:27 PM

Der Goldrausch der KI-Klassifizierung

Alle Anbieter von Datensicherheitslösungen überbieten sich damit, „KI-gestützte Klassifizierung“ in ihre Marketingmaterialien aufzunehmen. Es ist das aktuelle Schlagwort, und das aus gutem Grund – große Sprachmodelle verfügen über echte Fähigkeiten, die die Suche und Kategorisierung sensibler Daten verbessern können.

Was Ihnen die Werbung verschweigt: Die KI-Klassifizierung ist ein Werkzeug, keine Strategie. Und ein Werkzeug ohne die richtige Grundlage ist nur ein teurer Kostenfaktor.

Ich habe fast zwei Jahrzehnte damit verbracht, die Entwicklung der Datensicherheit zu beobachten. Wir haben Varonis gegründet, weil wir eine grundlegende Wahrheit erkannten: Unternehmen hatten keine Ahnung, was in ihren Daten war, wer darauf zugreifen konnte oder wer sie tatsächlich nutzte. Das Problem besteht weiterhin. Im Gegenteil, es ist noch schlimmer geworden, da sich die Daten über Cloud-Dienste, SaaS-Anwendungen und KI-gestützte Kollaborationstools ausgebreitet haben.

Was sich geändert hat, ist die Raffinesse des Verkaufsgesprächs. Neue Marktteilnehmer behaupten, dass KI alles löst – dass Sie das Problem mit maschinellem Lernen lösen können und plötzlich Ihre Daten geschützt sind. Das ist nicht nur falsch; es ist gefährlich.

Der „nur Regex“ Strohmann

Neuere DSPM-Anbieter positionieren sich gerne gegenüber „veralteten“ Lösungen, die auf „statischen Erkennungsalgorithmen wie regulären Ausdrücken basierenden Datenidentifikatoren“ beruhen. Die Implikation ist klar: reguläre Ausdrücke stehen für Primitivität, KI für Modernität.

Das ist ein Scheinargument, und zwar kein besonders gutes.

Wir betreiben Datenklassifizierung seit 2009 – lange bevor jemand über LLMs sprach. Über einen Zeitraum von fünfzehn Jahren haben wir eine mehrschichtige Klassifizierungs-Engine entwickelt, die mehrere Techniken kombiniert, von denen jede für ihre jeweilige Aufgabe optimiert ist.

Diese Vorgehensweise als „regex-basiert“ zu bezeichnen, ist so, als würde man ein modernes Automobil als „radbasiert“ bezeichnen. Technisch korrekt, aber im Kern irreführend.

Das Besondere an deterministischen Methoden wie regulären Ausdrücken mit algorithmischer Verifizierung ist, dass sie bei dem, was sie erkennen sollen, nahezu zu 100 % korrekt sind. Eine Kreditkartennummer, die den Luhn-Algorithmus besteht, ist eine Kreditkartennummer. Es ist keine Wahrscheinlichkeit im Spiel.

LLMs hingegen sind probabilistisch. Die besten veröffentlichten Forschungsergebnisse zeigen, dass selbst eine optimierte KI-Klassifizierung unter günstigen Bedingungen eine Genauigkeit von 90–95 % erreicht. Für manche Anwendungsfälle ist das in Ordnung. Für die Einhaltung von Vorschriften, bei der eine übersehene sensible Datei Strafen nach sich ziehen kann, ist dies nicht der Fall.

Die richtige Antwort ist weder KI noch deterministisch – sie ist beides, wobei jede Methode dort eingesetzt wird, wo sie ihre Stärken hat.

Der richtige Weg, KI einzusetzen: ausschließlich Inferenz

Als wir Varonis um die LLM-basierte Klassifizierung erweiterten, trafen wir eine bewusste architektonische Entscheidung: Unsere Modelle laufen im reinen Inferenzmodus.

Was bedeutet das? Das Modell analysiert Daten und liefert Klassifikationen zurück, lernt aber nicht aus den Daten, die es verarbeitet. Ihre sensiblen Daten werden nicht zu Trainingsdaten. Sie werden nicht in die Modellgewichte „eingebettet“. Sie verbessern nicht das Modell für andere Kunden.

Dies ist wichtig, da viele KI-zentrierte Anbieter einen anderen Ansatz verfolgen. Sie preisen die „selbstlernende“ Funktion an, die sich an die jeweilige Umgebung des Kunden anpasst. Das klingt beeindruckend, bis Sie erkennen, was das bedeutet: Ihre Daten werden genutzt, um ihre Modelle zu trainieren.

Es wird Ihnen mitgeteilt, dass die Daten „unumkehrbar eingebettet“ oder „zur Verhinderung einer Offenlegung getrennt“ sind. Aber eingebettet ist immer noch eingebettet. Für regulierte Branchen – Finanzdienstleistungen, Gesundheitswesen, Regierung – ist das kein technisches Detail. Es ist eine Compliance-Frage, die Ihre Prüfer irgendwann stellen werden.

Es gibt auch ein Sicherheitsrisiko, dem nicht genügend Aufmerksamkeit geschenkt wird: Modelle, die aus Kundendaten lernen, können abgefragt werden. Wenn ein Angreifer Zugriff auf das Modell erlangt – oder wenn eine ausgeklügelte Prompt-Injection-Technik auftaucht –, kann er möglicherweise Informationen darüber extrahieren, was das Modell verarbeitet hat. Ein Modell, das Muster aus Ihren sensitiven Daten gelernt hat, wird zur Zielscheibe. Ein reines Inferenzmodell hat nichts zu enthüllen.

Datensouveränität ist nicht verhandelbar

Lassen Sie uns über ein Thema sprechen, über das die meisten KI-First-Anbieter lieber nicht nachdenken möchten: Wohin werden Ihre Daten während der Klassifizierung übertragen?

Bei vielen neueren DSPM-Lösungen müssen Ihre Daten zur Verarbeitung Ihre Umgebung verlassen. Sie beschreiben es als „Klonen eines Snapshots“ oder als Verwendung „minimaler, geschützter Datenproben“. Die Sprache ist beruhigend. Die Realität ist, dass Ihre sensitive Daten in einer Infrastruktur übertragen werden, die Sie nicht kontrollieren können.

Unser Ansatz unterscheidet sich von anderen und ist nicht verhandelbar: Sensible Daten verlassen niemals die Kundenumgebung. Punkt.

Wenn wir LLMs für die Klassifizierung einsetzen, werden sie entweder lokal in der Umgebung des Kunden ausgeführt, oder alle an externe Modelle gesendeten Daten werden zunächst verschleiert und bereinigt. Die tatsächlichen sensiblen Werte – die Namen, Kontonummern, Gesundheitsdaten – bleiben dort, wo sie hingehören.

Stellen Sie Ihrem Anbieter eine einfache Frage: „Werden meine Daten verwendet, um Ihre KI-Modelle zu trainieren?“ Falls die Antwort eine Erklärung erfordert, haben Sie Ihre Antwort. Und wenn Sie schon dabei sind, fragen Sie: „Welche Daten verlassen unsere Umgebung, wohin gehen sie und wer hat Zugriff darauf?“

Das Stichprobenproblem: Was man nicht scannt, weiß man nicht

Um eine schnelle Wertwahrnehmung (Time-to-perceived-value) zu erreichen, setzen einige Anbieter stark auf Produktproben. Sie clustern ähnliche Dateien mithilfe von maschinellem Lernen und klassifizieren dann eine kleine Stichprobe aus jedem Cluster. Das klingt effizient.

Hier ist das Problem: Stichproben sind für strukturierte Daten sinnvoll, bei denen die Schemakonsistenz bedeutet, dass eine Stichprobe repräsentativ ist. Wenn Sie sich 1.000 Zeilen einer Datenbanktabelle ansehen und alle die gleichen Spalten haben, können Sie vernünftigerweise schließen, was die anderen Millionen Zeilen enthalten.

Unstrukturierte Daten funktionieren nicht so.

Eine Dateifreigabe mit 10 Millionen Dokumenten könnte in 0,1 % der Dateien sensible Daten enthalten – verteilt auf zufällige Orte, in unerwarteten Formaten, erstellt von Mitarbeitern, die vor Jahren gegangen sind. Wenn Sie nur 1 % dieser Dateien überprüfen, übersehen Sie 99 % der sensiblen Inhalte. Das ist kein Rundungsfehler. Das ist eine Compliance-Lücke.

Denken Sie an die Szenarien, die CISOs nachts wach halten: die Tabelle mit der gesamten Kundendatenbank, die jemand vor drei Jahren exportiert hat, das PDF mit Fusionsdokumenten auf einer vergessenen SharePoint-Website und die Textdatei mit Produktionsdaten, die ein Entwickler für den „temporären“ Gebrauch erstellt hat. Das sind genau die Dateien, die beim Sampling übersehen werden.

Unsere Kunden entscheiden sich in der Regel dafür, alles zu klassifizieren – weil sie verstehen, dass man nur schützen kann, was man gefunden hat. Sampling ist als Option verfügbar, nicht als Standard.

Den Bestand aktuell halten: Warum Aktivitäten wichtig sind

Ein Datenbestand ist nur nützlich, wenn er aktuell ist. Sobald ein Scan abgeschlossen ist, beginnt er zu veralten. Neue Dateien werden erstellt. Vorhandene Dateien werden geändert. Berechtigungen ändern sich. Daten bewegen sich.

Es gibt zwei Möglichkeiten, auf dem Laufenden zu bleiben:

Option 1: Regelmäßiges erneutes Scannen

Überprüfen Sie Ihre gesamte Umgebung nach einem bestimmten Zeitplan – täglich, wöchentlich, monatlich. Dies ist ressourcenintensiv, immer im Rückstand, und verpasst alles, was zwischen den Scans passiert. Wenn jemand am Dienstag eine sensible Datei erstellt und Ihr Scan am Sonntag läuft, haben Sie einen blinden Fleck von fünf Tagen.

Option 2: Aktivitätsüberwachung

Verfolgen Sie Ereignisse im Dateisystem in Echtzeit. Erfahren Sie sofort, wenn Daten erstellt, geändert, verschoben oder abgerufen werden. Lösen Sie die Klassifizierung anhand neuer oder geänderter Inhalte aus, anstatt alles erneut zu scannen. Halten Sie Ihren Lagerbestand stets aktuell – und das zu einem Bruchteil der Rechenkosten.

Das ist keine schwierige Entscheidung. Die Aktivitätsüberwachung ist die einzige Möglichkeit, ein aktuelles Inventar aufrechtzuerhalten, ohne Rechenressourcen für ständige vollständige Überprüfungen zu verbrauchen.

Es gibt noch einen weiteren Vorteil, der wichtig ist, wenn Sie es mit Petabytes von Daten zu tun haben: Aktivität ermöglicht es Ihnen, Prioritäten zu setzen. Anstatt alles gleichermaßen zu scannen, können Sie Ihre erste Klassifizierung auf die Daten konzentrieren, die tatsächlich verwendet werden – die aktiven, aufgerufenen Dateien, die ein echtes Risiko darstellen. Das verstaubte Archiv, das seit fünf Jahren nicht mehr angerührt wurde, kann warten. Der Ordner, der viel Zugriff vom Finanzteam erhält, hat Vorrang.

Aktivität ist die Grundlage für alles

Viele Anbieter von DSPM übersehen Folgendes: Bei der Aktivitätsüberwachung geht es nicht nur darum, Ihren Bestand auf dem neuesten Stand zu halten. Das ist die Grundlage für alles andere, was Sie mit Ihren Daten tun müssen.

Least-Privilege-Prinzip: Zu wissen, wer auf die Daten zugreifen darf, ist entscheidend. Die eigentliche Frage ist: Wer hat tatsächlich Zugriff darauf? Wer benötigt Zugang und wer hat ihn versehentlich? Sie können Berechtigungen nicht richtig anpassen, ohne die Nutzung zu verstehen. Und ohne Aktivitätsdaten können Sie die Nutzung nicht verstehen.

Erkennung von Bedrohungen: Ransomware, Exfiltration, Insider-Bedrohungen – sie alle manifestieren sich als abnormale Aktivitäten. Ein Benutzer greift auf Tausende von Dateien zu, die er noch nie berührt hat. Ein Dienstkonto liest plötzlich sensible Verzeichnisse. Vor einer Kündigung finden massenhafte Downloads statt. Ohne Aktivitätsüberwachung bleiben diese Verhaltensweisen unsichtbar.

Erkennung von KI-Missbrauch: Mit dem Einsatz von KI-Copiloten und LLMs in Unternehmen ist ein neuer Bedrohungsvektor entstanden: der Missbrauch von Prompt-Aufforderungen. Mitarbeiter – absichtlich oder versehentlich – bitten KI-Assistenten, vertrauliche Dokumente zusammenzufassen, sensible Daten zu extrahieren oder Zugriffskontrollen zu umgehen. Sie benötigen eine zeitnahe Überwachung, um diese Interaktionen zu erkennen und zu verstehen, was Ihre KI-Tools mit Ihren Daten tun sollen.

Überlegen Sie, wie Ihr Kreditkartenunternehmen Betrug aufdeckt. Sie überprüfen die Berechtigungen Ihrer Karte nicht regelmäßig. Sie beobachten jede Transaktion in Echtzeit und suchen nach Anomalien. Datensicherheit funktioniert genauso. Die Körperhaltung sagt Ihnen, was passieren könnte. Die Aktivitätsanzeige gibt Aufschluss darüber, was gerade passiert.

Identifizierung veralteter Daten: Daten, auf die niemand zugreift, sind Daten, die archiviert oder gelöscht werden können – das reduziert Ihre Angriffsfläche und den Umfang der Compliance. Aber Sie können veraltete Daten nicht identifizieren, ohne zu wissen, was verwendet wird.

Zugriffszertifizierung: Wenn ein Prüfer fragt: „Benötigt dieser Benutzer Zugriff auf diese Daten?“ Sie benötigen Nachweise. Die Aktivitätsdaten liefern diesen Nachweis.

Eine Data-Security-Posture-Management-Lösung ohne Aktivitätsüberwachung ist wie eine Sicherheitskamera, die nur einmal pro Woche Fotos macht. Sie werden das Vorher und Nachher sehen, aber das Verbrechen wird Ihnen entgehen.

Das „Haltungsproblem“: Wo data security posture management an seine Grenzen stößt

Viele DSPM-Anbieter sprechen von „Einblicken in den Identitätszugriff“ und davon, Organisationen bei der „Durchsetzung von Zero-Trust-Richtlinien“ zu unterstützen. Das klingt umfassend. Schauen Sie genauer hin und Sie werden feststellen, dass es nicht so ist.

Was die meisten Anbieter von Data Security Posture Management (DSPM) mit „Posture“ meinen, sind grundlegende Konfigurationseinstellungen, die sie crawlen können – ist MFA aktiviert? Gibt es öffentlich geteilte Links? Ist die Verschlüsselung aktiviert? Diese Einstellungen sind wichtig. Es ist wichtig, sie richtig hinzubekommen. Aber sie sind unvollständig und für einen tatsächlichen Datenschutz unzureichend.

Und das tun sie nicht: eine echte Analyse der Zugangskontrolle erstellen. Sie verstehen NTFS-ACLs nicht. Sie bilden die Vererbung von Ordnern nicht ab. Sie lösen keine verschachtelten Gruppenmitgliedschaften auf. Sie verfolgen nicht die komplexen Identitätsbeziehungen, die tatsächlich bestimmen, wer Ihre sensiblen Dateien berühren darf. Sie modellieren nicht die Vererbung von IAM-Rollen oder Service-Principal-Berechtigungen in Cloud-Umgebungen.

Auf den meisten dieser Plattformen gibt es keine ACL.

Wenn ein DSPM-Anbieter Ihnen mitteilt, dass er „Transparenz darüber bietet, wer Zugriff hat”, bitten Sie ihn, Ihnen die Vererbungskette zu zeigen. Fragen Sie sie, wie sie mit einem Benutzer umgehen, der einer Sicherheitsgruppe angehört, die in einer anderen Gruppe verschachtelt ist, die über Berechtigungen für einen Ordner verfügt, der drei Ebenen über der vertraulichen Datei liegt. Wenn sie diese Frage nicht beantworten können, führen sie keine Zugriffssteuerung durch – sie führen lediglich Sicherheitsüberprüfungen durch und bezeichnen dies mit einem bedeutungsvolleren Begriff.

Das Verständnis von Zugriffsrechten erfordert gründliche Arbeit: das Analysieren von Berechtigungen, das Auflösen von Identitäten und das Berechnen des effektiven Zugriffs über komplexe Vererbungshierarchien hinweg. Wir machen das seit fast zwanzig Jahren. Es ist schwierig. Deshalb machen die meisten Anbieter das nicht.

Worauf man bei einer Datensicherheitsplattform achten sollte

Bei der Bewertung von Datensicherheitslösungen sind folgende Fragen entscheidend:

Die Anbieter, die mit diesen Fragen Schwierigkeiten haben, sind in der Regel diejenigen, die sich eher auf die Geschwindigkeit der Demo als auf die operative Tiefe konzentriert haben. Sie können dir schnell ein Dashboard zeigen. Ob es die Realität widerspiegelt, ist eine andere Frage.

Reife vor Marketing

KI-gestützte Klassifizierung ist eine echte Fähigkeit, die Wert schaffen kann, wenn sie richtig angewendet wird. Aber es ist kein Ersatz für die Grundlagen: umfassende Abdeckung, Datensouveränität, Aktivitätsüberwachung und Klassifizierungsreife, die über Jahre realer Einsatzerfahrung aufgebaut wurden.

Die Anbieter, die mit einer „KI-First“-Positionierung auf den Markt drängen, haben sich eher auf eine schnelle Demo als auf eine umfassende Abdeckung konzentriert. Ihr Sampling-Ansatz liefert schnelle erste Ergebnisse, hinterlässt jedoch bei Unternehmen eine unvollständige Transparenz, veraltete Bestände, keine Verhaltensbasis für die Erkennung von Bedrohungen und Bedenken hinsichtlich der Datenhoheit.

Wir haben uns für den anspruchsvolleren Weg entschieden: Wir haben über fast zwei Jahrzehnte hinweg eine Klassifizierungsreife aufgebaut, die Überwachung von Aktivitäten als grundlegende Ebene hinzugefügt und sichergestellt, dass die Daten stets unter der Kontrolle des Kunden bleiben. Das Ergebnis ist nicht nur Klassifizierung – es ist eine Datenintelligenz, die Schutz, Erkennung und Reaktion ermöglicht.

Wenn Ihnen ein Anbieter das nächste Mal sagt, dass KI-Klassifizierung alle Ihre Datensicherheitsprobleme lösen wird, stellen Sie ihm die schwierigen Fragen. Die Antworten werden Ihnen alles sagen, was Sie wissen müssen.

Vollständigen Beitrag anzeigen