Il rilevamento e la classificazione dei dati costituiscono la base per la sicurezza, la conformità e l'adozione sicura dell'AI. Per ottenere risultati come il privilegio minimo, una DLP efficace e l'uso sicuro di strumenti come Microsoft Copilot è necessaria una classificazione accurata, scalabile e automatizzata. Con il rapido afflusso dell'AI, la posta in gioco è ancora più alta. L'AI porta a un'esplosione nei volumi di dati e offre ai malintenzionati nuovi modi per individuare ed esfiltrare dati sensibili.
Nonostante l'importanza della classificazione dei dati, questa rimane una sfida persistente per la maggior parte delle organizzazioni, che hanno difficoltà a rispondere a domande semplici come "Dove sono i miei dati sensibili?" e "Che tipo di dati sensibili ho?"
Per eseguire in modo efficace il rilevamento e la classificazione dei dati non esiste una soluzione magica. Non si può semplicemente sfruttare gli approcci tradizionali o inseguire l'ultima tendenza tecnologica. Per costruire una base efficace per la sicurezza, la conformità e l'adozione sicura dell'AI, è necessario lo strumento adatto.
In questo blog descriveremo in dettaglio gli approcci al rilevamento e alla classificazione dei dati e come trovare la giusta combinazione per ottenere accuratezza e scalabilità.
Errori comuni nel rilevamento e nella classificazione dei dati
La maggior parte dei progetti di rilevamento e classificazione dei dati fallisce o non parte mai. Questi progetti si concentrano troppo su una sola tecnica e prendono scorciatoie per raggiungere l'efficienza su larga scala. In definitiva, questi approcci portano a una base inadeguata per la sicurezza dei dati, mettendo a rischio i dati critici. Esaminiamo queste insidie comuni.
L'approccio legacy basato solo su regex
Alcuni fornitori si affidano esclusivamente alle espressioni regolari (regex) per la classificazione. Sebbene sia efficace e scalabile per individuare schemi prevedibili, questo approccio riscontra difficoltà con l'ambiguità, il contesto e i tipi di dati nuovi. Inoltre, queste regole spesso richiedono una messa a punto manuale da parte di team specializzati per stare al passo con i nuovi tipi di dati, e questo sovraccarica i team di sicurezza con una gestione perpetua delle politiche e falsi positivi.
La trappola dell'AI esclusiva
C'è molto fermento intorno ai modelli linguistici di grandi dimensioni (LLM) e alla loro capacità di comprendere il contesto e la semantica. Sebbene gli LLM siano in grado di classificare in modo efficace nuovi tipi di dati, affidarsi esclusivamente all'AI per la classificazione è rischioso. Questi modelli richiedono dati di addestramento ben curati, spesso specifici del settore o dell'azienda, per fornire risultati accurati ed evitare errori dovuti a congetture o allucinazioni.
Se un fornitore classifica i dati senza un modello adeguatamente addestrato, il risultato è inaffidabile e può far lievitare rapidamente i costi su larga scala. In poche parole, l'AI non è efficiente per l'identificazione deterministica e di alta precisione di modelli noti, che costituisce la parte principale del rilevamento e della classificazione dei dati. Nonostante il clamore, è essenziale tenere presente che l'obiettivo è l'accuratezza e l'efficienza, non solo l'AI.
La scorciatoia per il campionamento
Quando il principale punto di forza di un fornitore è la velocità di scansione, spesso indica una scorciatoia architettonica: il campionamento. Per ottenere risultati rapidi su grandi insiemi di dati, alcune piattaforme evitano le richieste di risorse delle scansioni complete e analizzano solo un sottoinsieme dei dati. Anche se ciò potrebbe essere accettabile per un'istantanea una tantum, questo sistema crea una base instabile per qualsiasi programma di sicurezza continuativo.
Il campionamento, proprio a causa della sua natura, crea punti ciechi, rendendo impossibile mantenere la conformità a livello di audit, applicare politiche precise e rispondere efficacemente a una violazione.
Il vero obiettivo è ottenere una classificazione di cui ci si può fidare. Il rilevamento e la classificazione dei dati devono fornire una visione contestuale completa, continuamente aggiornata dei dati e scalabile.
La soluzione: lo strumento giusto per il lavoro giusto
Proprio come non useresti un martello per avvitare una vite, non dovresti usare un unico metodo di classificazione per ogni tipo di dati. Un approccio scalabile combina il meglio di più mondi:
- Classificazione basata su modelli: la classificazione basata su modelli è essenziale per i dati strutturati, come i numeri di carta di credito o gli identificatori sanitari. Tecniche come la corrispondenza di prossimità, le parole chiave negative e la verifica algoritmica (ad esempio, Luhn per le carte di credito) garantiscono un'elevata precisione e richiedono una capacità di calcolo ridotta.
- Exact Data Match (EDM): quando è richiesta la certezza a livello di record (ad esempio, questo è l'ID paziente 22814 dal nostro sistema EMR principale), l'EDM è indispensabile. Questo strumento confronta i dati non strutturati con un set di riferimento con hash, riducendo al minimo i falsi positivi e verificando con precisione i dati critici.
- Classificazione assistita da AI/LLM: L'AI eccelle quando c'è ambiguità. È uno strumento potente per categorizzare nuovi tipi di dati, interpretare schemi incoerenti o aggiungere contesto ai risultati della classificazione. Stratificata con logica a pattern, l'AI aumenta la precisione e l'operatività complessive, soprattutto per dati ambigui o in evoluzione.
Il raggiungimento della scalabilità e dell'accuratezza dipende dall'utilizzo dei metodi di classificazione corretti
Conclusione: usa prima il metodo più veloce e accurato (pattern), utilizza l'EDM per ottenere una certezza assoluta e aggiungi l'AI per una comprensione contestuale profonda.

Un approccio pratico al rilevamento e alla classificazione dei dati

Il rilevamento e la classificazione dei dati non riguardano solo la visibilità. Si occupano della protezione dei dati. La Varonis Data Security Platform offre un approccio end-to-end alla sicurezza dei dati, dalla rilevamento alla remediation, progettato per ridurre gli sforzi manuali e accelerare i risultati di sicurezza in ogni fase.
- Rilevamento automatico dei data stores: mappa automaticamente i dati in tutto il tuo patrimonio, inclusi cloud, SaaS e ambienti ibridi. Centinaia di database, migliaia di bucket e innumerevoli condivisioni di file, tutti costantemente inventariati.
- Classificazione automatica con lo strumento migliore: inizia con una scansione completa per stabilire una linea di base, utilizzando una combinazione di corrispondenza di pattern, Exact Data Match (EDM) e classificazione assistita dall'AI per garantire la precisione. Quindi scala in modo efficiente con la scansione incrementale, sfruttando i registri delle attività native per rilevare le modifiche ed eseguire la scansione solo di ciò che è nuovo o modificato.
- Arricchisci con il contesto: vai oltre il tipo di dati per arricchire con soggetto, tema e normative applicabili. Un file non contiene semplicemente "informazioni di identificazione personale (PII)". Contiene un "modulo di ammissione del paziente contenente dati regolamentati dall'HIPAA". Quel contesto è fondamentale per fornire informazioni utili sulla sicurezza dei dati.
- Monitoraggio dell'attività e dei flussi di dati: mantieni un audit trail unificato che correla i dati, l'identità, la rete e la telemetria di sensibilità per vedere come vengono utilizzati i dati classificati, dove si spostano e da chi vengono spostati, comprese le interazioni con i prompt dell'intelligenza artificiale.
- Risposata a comportamenti anomali: una classificazione accurata potenzia la DLP e la modellazione del rischio, consentendo all'UEBA di far emergere comportamenti complessi degli avversari. Arricchisci gli alert con il contesto di classificazione per rilevare esfiltrazioni, minacce interne e uso improprio degli strumenti di intelligenza artificiale. Assegna priorità agli alert in base al blast radius e alla fiducia e accelera le indagini con Varonis 24x7 MDDR.
- Remediation automatizzata: i risultati della classificazione devono tradursi direttamente in miglioramenti della sicurezza. Qui è dove entra in gioco la remediation automatizzata. Maschera automaticamente i dati sensibili, etichetta automaticamente i file HR, rimuovi gli accessi ospiti a rischio e impedisci che i dati sensibili entrino nei prompt dell'AI senza creare ticket di assistenza inutili o integrazioni complesse.
Il nostro principio operativo è deciso: nessuna preconfigurazione, nessuna manutenzione continua delle politiche e nessuna ottimizzazione manuale — solo implementazione rapida e facile e un valore immediato.
Distribuzione sicura e residenza dei dati

Il modo in cui vengono scansionati i dati è importante. Per facilitare la scalabilità, molti fornitori trasferiscono i campioni di dati direttamente nel loro cloud per la classificazione. Ciò crea un rischio per la privacy, aumenta la superficie d'attacco e toglie il controllo sui propri dati. Se la residenza dei dati è una preoccupazione, il trasferimento diretto dei dati dovrebbe essere escluso a priori.
L'approccio di Varonis include un robusto isolamento del tenant, l'elaborazione in regione per soddisfare i requisiti di residenza dei dati e la crittografia durante il transito e a riposo. A differenza di altri fornitori, i dati dei clienti non vengono mai utilizzati per addestrare i nostri modelli di intelligenza artificiale.
Per le organizzazioni con rigide regole di residenza dei dati, la nostra architettura di raccolta dati consente loro di elaborare e classificare i dati senza mai lasciare il loro ambiente.
Per approfondire le nostre pratiche di sicurezza, le certificazioni di conformità e le informative sulla privacy, ti invitiamo a visitare il Varonis Trust Center.
Dalla classificazione al controllo: risultati concreti
La classificazione automatizzata dei dati offre molto più della semplice visibilità; consente di ottenere risultati critici in termini di sicurezza. Ecco come appare nella vita reale:
Caso d'uso: Tampa General Hospital implementa l'AI in modo sicuro
Sfida: implementare Microsoft 365 Copilot per 10.000 membri del personale clinico e amministrativo senza rischiare l'exposure dei dati sanitari protetti (PHI).
Soluzione:
- Individuazione del rischio: milioni di file contenenti PHI sono stati scoperti e classificati automaticamente, risultando pericolosamente sovraesposti.
- Risoluzione del problema: le autorizzazioni sono state corrette per un modello a privilegi minimi in pochi giorni, bloccando i dati dei pazienti prima che l'intelligenza artificiale fosse implementata.
- Alert sul rischio dei dati: monitora continuamente tutte le attività dei dati e i prompt dell'AI dopo l'implementazione per rilevare e fermare accessi anomali o condivisioni rischiose in tempo reale.
Risultato: Tampa General ha distribuito con successo e fiducia gli assistenti AI in tutta l'organizzazione, promuovendo l'innovazione e garantendo che i dati più sensibili rimanessero sicuri e conformi alle normative HIPAA.
Varonis è stato determinante in quanto ci ha consentito di vedere tutti i dati, dove si trovavano e chi vi aveva accesso.
David Quigley, Responsabile della Protezione dell'Identità e degli Accessi
Caso d'uso: una delle più grandi cooperative di credito degli Stati Uniti implementa la DLP aziendale
Sfida:
Implementare controlli DLP per proteggere i dati PII dei membri e le informazioni sulle carte di pagamento da minacce interne ed esterne, garantendo la conformità normativa.
Soluzione:
- Individuazione del rischio: sono stati scoperti e classificati milioni di file contenenti dati PII e PCI, fornendo le basi per una DLP accurata ed esponendo un accesso aperto diffuso.
- Risoluzione del problema: ridurre l'accesso aperto del 93% tramite una remediation automatica dei privilegi minimi, assicurando che solo gli utenti autorizzati mantengano l'accesso.
- Alerts sul rischio dei dati: è stata mantenuta la supervisione in tempo reale dell'attività dei dati ed è stato coinvolto il team IR Varonis per indagare su tre distinti incidenti.
Risultato: la cooperativa di credito ha implementato la DLP con sicurezza, riducendo il rischio di violazione e garantendo che i dati sensibili dei membri rimanessero protetti e conformi a normative come il CCPA.
La formula è semplice: utilizzare una classificazione precisa per trovare ciò che è a rischio, correggere ciò che è esposto e inviare alert per le attività sospette.
Come la classificazione consente un'AI sicura e controlli downstream
Il rilevamento e la classificazione dei dati sono essenziali per sfruttare in modo sicuro gli assistenti AI come Microsoft 365 Copilot, ChatGPT Enterprise e Salesforce Agentforce. Non puoi proteggere ciò che non conosci. L'identificazione dei dati sensibili è fondamentale per applicare i controlli adeguati ed evitare che l'intelligenza artificiale li esponga.
Ma il suo impatto si estende ben oltre l'AI. Una classificazione accurata potenzia i controlli downstream più critici: aggiunge un contesto ad alta fedeltà al rilevamento e alla risposta alle minacce, consente una DLP efficace, rafforza i programmi di rischio interno e rende possibile l'automazione del ciclo di vita dei dati.
La classificazione verificata è il modo in cui si costruiscono guardrail adeguati. Garantisce che i dati sensibili siano protetti dall'exposure o dall'uso improprio, indipendentemente da dove si spostano o dagli agenti AI che si implementano.
Vuoi vedere una classificazione che produce risultati?
Smetti di gestire le politiche e inizia a gestire il rischio.
Esegui un Data Risk Assessment gratuito per ottenere una visione completa, attuale e contestuale dei tuoi dati, oltre a chiari passaggi successivi per i guardrail AI e la DLP.
Nota: questo blog è stato tradotto con l'aiuto dell'AI e corretto da un traduttore umano.
O que devo fazer agora?
Listamos abaixo três recomendações para reduzir os riscos de dados na sua organização:
Agende uma demonstração conosco Veja a usabilidade de Varonis em uma sessão personalizada com base nas necessidades de segurança de dados da sua organização. Responderemos a todas as suas perguntas.
Veja um exemplo do nosso Relatório de Risco de Dados Conheça as ameaças que podem permanecer no seu ambiente. O Relatório da Varonis é gratuito e demonstra claramente como realizar a remediação automatizada.
Siga-nos no LinkedIn, YouTube et X (Twitter) Obtenha insights detalhados sobre todos os aspectos da segurança de dados, incluindo DSPM, detecção de ameaças, segurança de IA, entre outros.
