3 Steps to Secure Your Snowflake Data

Rédigé par Eugene Feldman | 2 juin 2025 12:08:35

L'entreprise moderne s'appuie sur les données pour tout alimenter, des décisions opérationnelles aux initiatives stratégiques. Les entreprises se tournent de plus en plus vers des plateformes de données cloud comme Snowflake pour conjuguer évolutivité, performance et flexibilité.

Cependant, de nombreuses équipes responsables de la sécurité d'entreprise pensent à tort que, Snowflake étant un système sécurisé, elles n'ont pas besoin de prendre des mesures pour sécuriser leurs données Snowflake. En réalité, les données de Snowflake sont vulnérables si les mesures de sécurité appropriées ne sont pas mises en place.

En 2024, une campagne de grande envergure ciblant les utilisateurs de Snowflake a conduit à des fuites de données dans environ 165 entreprises. Dans ce blog, nous aborderons le modèle de responsabilité partagée et comment vous pouvez sécuriser vos données sensibles Snowflake pour empêcher les fuites de données.

Qui est responsable de la sécurité des données au sein de votre instance Snowflake ?

Comme la plupart des plateformes cloud, Snowflake utilise un modèle de responsabilité partagée pour la sécurité des données.

Snowflake maintient une sécurité robuste pour la plateforme sous-jacente, y compris la sécurité de l'infrastructure, le chiffrement des données au repos et en transit, et fournit les mécanismes de contrôle d'accès. Cependant, il incombe aux clients d'utiliser les contrôles d'accès de Snowflake et d'autres outils pour s'assurer qu'ils :

Autorisez uniquement les bonnes personnes à accéder à l'instance Snowflake.
Identifient toutes les données sensibles et les traitent conformément aux politiques gouvernementales et d'entreprise.
Adaptez l'accès aux données afin que chaque utilisateur de Snowflake ne puisse accéder qu'aux données dont il a besoin (principe du moindre privilège)

Modèle traditionnel de responsabilité partagée

Snowflake offre des fonctionnalités natives de gouvernance et de sécurité des données, telles que le contrôle d'accès basé sur les rôles, la surveillance de l'utilisation, la sécurité au niveau des colonnes et des lignes, ainsi que les politiques de réseau. Il prend également en charge l'authentification unique (SSO) et l'authentification multifactorielle (MFA).

Cependant, les entreprises utilisant des environnements Snowflake complexes ont des difficultés à sécuriser leurs données Snowflake en utilisant uniquement ces capacités natives parce que :

La classification des données est manuelle et non évolutive.
Les rôles et les autorisations sont complexes, ce qui entraîne des autorisations excessives et une exposition des données.
Les journaux doivent subir de nombreux traitements pour détecter efficacement les accès malveillants et anormaux.

Les entreprises sont contraintes de mettre en place des processus de sécurité ponctuels ou d'accepter un manque de visibilité sur l'emplacement de leurs données sensibles, un accès trop large des utilisateurs et une incapacité à détecter les activités malveillantes telles que les menaces internes et les identifiants compromis.

Qu'est-ce qui est complexe dans la sécurisation des données Snowflake ?

Il est difficile de déterminer quelles données sont sensibles

Snowflake ne dispose pas de capacités robustes de classification des données natives pour découvrir et classer automatiquement les informations sensibles. Les administrateurs doivent s’appuyer sur les balises et les commentaires de Snowflake pour classifier et étiqueter manuellement les bases de données, les schémas, les tableaux et les colonnes.

Ces processus manuels deviennent complètement irréalisables, même pour les environnements Snowflake de taille moyenne.

Il est difficile d’assurer et de maintenir le moindre privilège

Dans Snowflake, les rôles définissent à la fois l'ensemble des objets auxquels un utilisateur peut accéder et l'ensemble des privilèges (Créer, Lire, Mettre à jour, Supprimer) que les utilisateurs ont pour chaque objet.

Les rôles peuvent être attribués aux utilisateurs ainsi qu'à d'autres rôles, créant des chaînes d'héritage avec des autorisations qui se propagent vers le bas. Un utilisateur reçoit les autorisations des rôles qui lui sont attribués, ainsi que toutes les autorisations de tous les rôles accordés aux rôles qui lui ont été attribués.

Les aspects les plus difficiles des contrôles d'accès de Snowflake sont les suivants :

Héritage à plusieurs niveaux : les autorisations peuvent se propager en cascade à travers plusieurs niveaux de rôles.
Chemins d'héritage multiples : les utilisateurs peuvent bénéficier du même privilège grâce à différentes combinaisons de rôles.
Agrégation des privilèges : les autorisations effectives représentent la somme de tous les privilèges hérités.
Changements de rôle dynamiques : à mesure que les rôles évoluent, il devient de plus en plus difficile de suivre l'impact des décisions antérieures en matière d’autorisation.
Privilèges au niveau de l'objet : des privilèges différents sur le même objet (SELECT c. MODIFY) créent une complexité supplémentaire.
Autorisations futures : Snowflake permet d'accorder des privilèges sur les futurs objets d'un schéma, créant des modèles d'accès imprévisibles à mesure que de nouveaux objets sont créés.

As organizations scale their Snowflake deployments, the complexity created by nested Roles makes it a virtual certainty that users get many more permissions than they need.

Exemple : de quelle manière les rôles imbriqués conduisent-ils à des autorisations non intentionnelles ?

Supposons qu'un analyste de données ait besoin d'accéder à des données marketing, il se voit donc attribuer le rôle MARKETING_ANALYST.
À un moment donné, l'entreprise crée un rôle CAMPAIGN_MANAGER qui inclut le rôle MARKETING_ANALYST pour des raisons de commodité (c'est-à-dire moins de cases à cocher pour les objets et les privilèges lors du processus de création de rôle).
Notre analyste de données travaille sur un tableau de bord marketing Tableau connecté à Snowflake et a besoin d'accéder aux données de campagne pour créer des indicateurs de performance et des visualisations. C'est pourquoi le rôle CAMPAIGN_MANAGER lui est également attribué.
Le service marketing décide de lancer des campagnes hyper-ciblées qui utilisent des données à caractère personnel pour un ciblage plus précis. Il ajoute au rôle CAMPAIGN_MANAGER un accès supplémentaire aux données à caractère personnel des clients.

Conséquence imprévue : notre analyste de données a désormais accès à des données à caractère personnel qu’il n’a jamais demandées et dont il n’a probablement même pas connaissance.

Ce scénario n’est pas théorique, il se produit tout le temps dans les grandes entreprises où les structures de rôles évoluent de manière organique au fil du temps. L'équipe marketing cherchait simplement à permettre des campagnes plus efficaces, sans intention malveillante ni conscience des implications en matière de sécurité.

Pourtant, le résultat constitue une violation manifeste des principes du moindre privilège que l'entreprise doit maintenir dans le cadre du modèle de responsabilité partagée. En outre, cela peut constituer une violation du RGPD et d'autres réglementations relatives à la protection des données, ce qui pourrait exposer l'entreprise à des amendes et à une atteinte à sa réputation.

Les autorisations excessives posent un problème encore plus grave à l'ère de l'IA

À mesure que les entreprises adoptent l'apprentissage automatique et l'IA, l'excès d'autorisations devient une menace immédiate plutôt qu'un risque potentiel. Avant l'ère de l'IA, un utilisateur avec des autorisations excessives pouvait ne jamais accéder aux données sensibles auxquelles il ne devrait pas avoir accès.

La plupart des personnes n’accèdent généralement qu’à ce dont elles ont besoin pour leurs tâches immédiates, et n’utilisent pas les autorisations excessives. L’IA rend beaucoup plus probable qu’un accès excessif conduise à une exposition :

L’IA consomme toutes les données auxquelles elle peut accéder : contrairement aux humains, les systèmes d’IA analysent systématiquement toutes les données auxquelles ils peuvent accéder, ce qui garantit pratiquement qu’un accès excessif entraînera l’exposition de données sensibles.
L'IA reconnaît les motifs dans les ensembles de données : l'IA met en lumière des relations entre des points de données apparemment sans lien que la plupart des personnes ne remarqueraient pas, exposant potentiellement des informations sensibles à partir de données qui semblent non sensibles.
L’IA stocke les données qu’elle analyse : une fois qu’un système d’IA traite des données, elles deviennent partie intégrante de ses connaissances et créent une exposition durable au-delà de l’accès initial.
L'IA traite d'énormes volumes de données : étant donné qu'un agent d'IA avec des droits excessifs traite les données bien plus rapidement qu'une personne avec des droits excessifs, les données sensibles sont exposées à une échelle et à une vitesse phénoménales.

À l'ère de l'IA, l'exposition des données due à des autorisations excessives n'est plus un risque mais une certitude. Si un système d'IA peut accéder à des données sensibles, il y accèdera, les traitera, les stockera et les exposera.

Ainsi, pour les entreprises qui exploitent des systèmes d'intelligence artificielle sur des données Snowflake, il est impératif de s’occuper des utilisateurs ayant des permissions excessives de manière urgente, plutôt que de le considérer comme un simple exercice de réduction des risques ou de conformité.

Il est difficile d’identifier les schémas malveillants ou anormaux d’accès aux données

Bien que Snowflake fournisse des journaux complets qui couvrent les requêtes, l'historique des évènements d'accès au niveau des objets et l'historique des connexions, il appartient au client de donner un sens aux données des journaux pour déterminer ce qui est normal, ce qui est inhabituel et ce qui est malveillant. Cependant, cela est extrêmement difficile à faire, surtout dans les déploiements Snowflake à grande échelle.

Trois grands défis sont à relever :

Grand volume de journaux : les grandes entreprises traitent des centaines de milliers de requêtes par jour sur des milliers d'objets.
Absence de conscience contextuelle : bien que Snowflake fournisse des journaux extrêmement complets, il ne corrèle pas différents types d'évènements tels que les requêtes, les connexions et l'accès aux données. Il ne contient pas non plus de métadonnées sur les évènements d'accès.
Obstacles techniques : bien qu'une grande partie des données soit techniquement disponible, il faut beaucoup de temps et d'efforts en ingénierie et analyse de données pour identifier les modèles d'accès anormaux aux données et créer des alertes utiles.

1. Identifier les données sensibles

Bien que les noms de base de données, de schéma et de tableau Snowflake puissent indiquer qu'ils contiennent des données sensibles, il peut y avoir des colonnes, des vues et des objets de données qui ne sont pas clairement étiquetés mais qui contiennent des données sensibles ou hautement réglementées telles que des données à caractère personnel, des informations médicales protégées ou des données de carte de crédit.

De plus, à mesure que les pipelines de données évoluent et que de nouveaux ensembles de données sont intégrés, des informations sensibles peuvent apparaître à des emplacements inattendus. Cela signifie que vous ne pouvez pas vous fier aux noms des bases de données, des schémas, des tableaux et des colonnes pour identifier les données sensibles, mais vous devez plutôt trouver un moyen d’analyser en continu l'ensemble de votre environnement Snowflake et d'identifier les données sensibles dès qu'elles pénètrent dans votre instance Snowflake.

2. Veiller à ce que les utilisateurs n’aient accès qu’aux données dont ils ont besoin

Vous devez être en mesure d'identifier toutes vos données sensibles dans Snowflake, de déterminer qui peut y accéder et de dimensionner les autorisations de manière à ce que seuls les utilisateurs qui ont réellement besoin d'accéder à une ressource particulière puissent le faire.

Cependant, étant donné que le modèle d'accès basé sur les rôles de Snowflake crée des chaînes d'héritage complexes où les utilisateurs accumulent des autorisations par le biais d'attributions de rôles multiples, l'examen manuel et l'ajustement des autorisations effectives de chaque utilisateur à travers tous les chemins d'héritage deviennent impossibles à mesure que votre déploiement Snowflake s'accroît.

3. S’assurer que les autorisations d’accès ne sont pas détournées

La majorité des fuites de données impliquent des informations d'identification compromises ou des menaces internes.

Les entreprises doivent disposer d’un moyen d'analyser les comportements des utilisateurs dans Snowflake pour garantir que les droits d'accès sont utilisés uniquement à des fins légitimes.

Ceci est particulièrement critique à l'ère de l'IA, où les systèmes automatisés peuvent accéder à de vastes quantités de données d'une manière qui diffère considérablement des schémas d'utilisation humains normaux. Cependant, Snowflake n'offre aucune surveillance native de l'activité et ne fournit que des journaux d'évènements bruts qui sont disponibles dans un délai de 45 minutes à 3 heures et ne sont conservés que pendant 90 jours.

Comment Varonis aide les organisations à sécuriser leurs données Snowflake

Varonis permet aux équipes de sécurité et aux administrateurs de données d'identifier les données sensibles, d'assurer et de maintenir le principe du moindre privilège, et de détecter et d’empêcher les activités non autorisées dans les environnements Snowflake.

Varonis offre aux entreprises une sécurité, une visibilité et un contrôle complets sur les données sensibles dans Snowflake, en fournissant les capacités automatisées nécessaires pour sécuriser les données dans Snowflake à l'échelle de l'entreprise. Varonis aide les entreprises :

1. Identifier les données sensibles

Varonis utilise des modèles d'IA avancés et la correspondance de motifs pour découvrir et classifier automatiquement les données sensibles dans toutes les bases de données, schémas, tableaux et colonnes de Snowflake. Cela comprend les données structurées qui ne sont pas forcément étiquetées comme sensibles, telles que les champs personnalisés, les tableaux dérivés, les données qui deviennent sensibles lorsqu'elles sont combinées avec d'autres ensembles de données, ainsi que les données non structurées telles que les champs de texte libre et les répertoires de fichiers.

La classification par l’IA identifie de nouveaux types de données, tandis que notre bibliothèque complète de plus de 100 politiques de classification prêtes à l’emploi identifie efficacement les données à caractère personnel, les informations médicales protégées, les données financières et d’autres informations réglementées.

2. Veiller à ce que les utilisateurs n’aient accès qu’aux données dont ils ont besoin

Plutôt que d'exiger une analyse manuelle des structures de rôles complexes, Varonis analyse automatiquement les hiérarchies de rôles complexes de Snowflake et détermine les autorisations effectives pour chaque utilisateur sur chaque ressource de données. Cette approche automatisée permet aux entreprises d’assurer et de maintenir le principe du moindre privilège, même dans des environnements complexes de Snowflake.

3. S’assurer que les autorisations d’accès ne sont pas détournées

Varonis établit des bases comportementales pour chaque utilisateur et système accédant à Snowflake, détectant des schémas anormaux pouvant indiquer une compromission, des menaces internes ou des systèmes d'IA accédant de manière inappropriée aux données.

Par exemple, bien qu'il soit normal qu'un analyste de données analyse régulièrement des rapports marketing, il est suspect s'il accède soudainement à des tableaux contenant les données à caractère personnel de clients qu'il n'a jamais utilisées auparavant, surtout si cela se produit en dehors des heures normales de bureau ou implique des extractions de données inhabituellement volumineuses.

Varonis réduit considérablement les faux positifs en concentrant les alertes spécifiquement sur les menaces pesant sur les données sensibles et en fournissant un contexte riche sur ce qui rend chaque activité suspecte.

Découvrez comment Varonis peut aider votre entreprises à sécuriser les données Snowflake

Pour protéger vos données sensibles dans Snowflake, vous devez être en mesure d'identifier où elles se trouvent, de déterminer qui peut y accéder et de détecter comment elles sont consultées et modifiées.

Seul Varonis offre toutes ces capacités critiques dans une plateforme unique, en relevant les défis clés de l'identification des données sensibles et de la détection des accès anormaux que les outils natifs de Snowflake ont du mal à gérer.

Si vous vous inquiétez des risques potentiels dans votre environnement Snowflake, une évaluation gratuite des risques sur vos données Snowflake est la meilleure façon de commencer. En moins de 24 heures, vous aurez une vue d'ensemble, basée sur les risques, de vos ressources de données les plus critiques et un plan clair pour une remédiation automatisée qui renforcera votre posture de sécurité tout en maintenant la productivité de l'entreprise.

Voir l'article complet