L'entreprise moderne s'appuie sur les données pour tout alimenter, des décisions opérationnelles aux initiatives stratégiques. Les entreprises se tournent de plus en plus vers des plateformes de données cloud comme Snowflake pour conjuguer évolutivité, performance et flexibilité.
Cependant, de nombreuses équipes responsables de la sécurité d'entreprise pensent à tort que, Snowflake étant un système sécurisé, elles n'ont pas besoin de prendre des mesures pour sécuriser leurs données Snowflake. En réalité, les données de Snowflake sont vulnérables si les mesures de sécurité appropriées ne sont pas mises en place.
En 2024, une campagne de grande envergure ciblant les utilisateurs de Snowflake a conduit à des fuites de données dans environ 165 entreprises. Dans ce blog, nous aborderons le modèle de responsabilité partagée et comment vous pouvez sécuriser vos données sensibles Snowflake pour empêcher les fuites de données.
Comme la plupart des plateformes cloud, Snowflake utilise un modèle de responsabilité partagée pour la sécurité des données.
Snowflake maintient une sécurité robuste pour la plateforme sous-jacente, y compris la sécurité de l'infrastructure, le chiffrement des données au repos et en transit, et fournit les mécanismes de contrôle d'accès. Cependant, il incombe aux clients d'utiliser les contrôles d'accès de Snowflake et d'autres outils pour s'assurer qu'ils :
Modèle traditionnel de responsabilité partagée
Snowflake offre des fonctionnalités natives de gouvernance et de sécurité des données, telles que le contrôle d'accès basé sur les rôles, la surveillance de l'utilisation, la sécurité au niveau des colonnes et des lignes, ainsi que les politiques de réseau. Il prend également en charge l'authentification unique (SSO) et l'authentification multifactorielle (MFA).
Cependant, les entreprises utilisant des environnements Snowflake complexes ont des difficultés à sécuriser leurs données Snowflake en utilisant uniquement ces capacités natives parce que :
Les entreprises sont contraintes de mettre en place des processus de sécurité ponctuels ou d'accepter un manque de visibilité sur l'emplacement de leurs données sensibles, un accès trop large des utilisateurs et une incapacité à détecter les activités malveillantes telles que les menaces internes et les identifiants compromis.
Snowflake ne dispose pas de capacités robustes de classification des données natives pour découvrir et classer automatiquement les informations sensibles. Les administrateurs doivent s’appuyer sur les balises et les commentaires de Snowflake pour classifier et étiqueter manuellement les bases de données, les schémas, les tableaux et les colonnes.
Ces processus manuels deviennent complètement irréalisables, même pour les environnements Snowflake de taille moyenne.
Dans Snowflake, les rôles définissent à la fois l'ensemble des objets auxquels un utilisateur peut accéder et l'ensemble des privilèges (Créer, Lire, Mettre à jour, Supprimer) que les utilisateurs ont pour chaque objet.
Les rôles peuvent être attribués aux utilisateurs ainsi qu'à d'autres rôles, créant des chaînes d'héritage avec des autorisations qui se propagent vers le bas. Un utilisateur reçoit les autorisations des rôles qui lui sont attribués, ainsi que toutes les autorisations de tous les rôles accordés aux rôles qui lui ont été attribués.
Les aspects les plus difficiles des contrôles d'accès de Snowflake sont les suivants :
Conséquence imprévue : notre analyste de données a désormais accès à des données à caractère personnel qu’il n’a jamais demandées et dont il n’a probablement même pas connaissance.
Ce scénario n’est pas théorique, il se produit tout le temps dans les grandes entreprises où les structures de rôles évoluent de manière organique au fil du temps. L'équipe marketing cherchait simplement à permettre des campagnes plus efficaces, sans intention malveillante ni conscience des implications en matière de sécurité.
Pourtant, le résultat constitue une violation manifeste des principes du moindre privilège que l'entreprise doit maintenir dans le cadre du modèle de responsabilité partagée. En outre, cela peut constituer une violation du RGPD et d'autres réglementations relatives à la protection des données, ce qui pourrait exposer l'entreprise à des amendes et à une atteinte à sa réputation.
À mesure que les entreprises adoptent l'apprentissage automatique et l'IA, l'excès d'autorisations devient une menace immédiate plutôt qu'un risque potentiel. Avant l'ère de l'IA, un utilisateur avec des autorisations excessives pouvait ne jamais accéder aux données sensibles auxquelles il ne devrait pas avoir accès.
La plupart des personnes n’accèdent généralement qu’à ce dont elles ont besoin pour leurs tâches immédiates, et n’utilisent pas les autorisations excessives. L’IA rend beaucoup plus probable qu’un accès excessif conduise à une exposition :
À l'ère de l'IA, l'exposition des données due à des autorisations excessives n'est plus un risque mais une certitude. Si un système d'IA peut accéder à des données sensibles, il y accèdera, les traitera, les stockera et les exposera.
Ainsi, pour les entreprises qui exploitent des systèmes d'intelligence artificielle sur des données Snowflake, il est impératif de s’occuper des utilisateurs ayant des permissions excessives de manière urgente, plutôt que de le considérer comme un simple exercice de réduction des risques ou de conformité.
Bien que Snowflake fournisse des journaux complets qui couvrent les requêtes, l'historique des évènements d'accès au niveau des objets et l'historique des connexions, il appartient au client de donner un sens aux données des journaux pour déterminer ce qui est normal, ce qui est inhabituel et ce qui est malveillant. Cependant, cela est extrêmement difficile à faire, surtout dans les déploiements Snowflake à grande échelle.
Trois grands défis sont à relever :
Bien que les noms de base de données, de schéma et de tableau Snowflake puissent indiquer qu'ils contiennent des données sensibles, il peut y avoir des colonnes, des vues et des objets de données qui ne sont pas clairement étiquetés mais qui contiennent des données sensibles ou hautement réglementées telles que des données à caractère personnel, des informations médicales protégées ou des données de carte de crédit.
De plus, à mesure que les pipelines de données évoluent et que de nouveaux ensembles de données sont intégrés, des informations sensibles peuvent apparaître à des emplacements inattendus. Cela signifie que vous ne pouvez pas vous fier aux noms des bases de données, des schémas, des tableaux et des colonnes pour identifier les données sensibles, mais vous devez plutôt trouver un moyen d’analyser en continu l'ensemble de votre environnement Snowflake et d'identifier les données sensibles dès qu'elles pénètrent dans votre instance Snowflake.
Vous devez être en mesure d'identifier toutes vos données sensibles dans Snowflake, de déterminer qui peut y accéder et de dimensionner les autorisations de manière à ce que seuls les utilisateurs qui ont réellement besoin d'accéder à une ressource particulière puissent le faire.
Cependant, étant donné que le modèle d'accès basé sur les rôles de Snowflake crée des chaînes d'héritage complexes où les utilisateurs accumulent des autorisations par le biais d'attributions de rôles multiples, l'examen manuel et l'ajustement des autorisations effectives de chaque utilisateur à travers tous les chemins d'héritage deviennent impossibles à mesure que votre déploiement Snowflake s'accroît.
La majorité des fuites de données impliquent des informations d'identification compromises ou des menaces internes.
Les entreprises doivent disposer d’un moyen d'analyser les comportements des utilisateurs dans Snowflake pour garantir que les droits d'accès sont utilisés uniquement à des fins légitimes.
Ceci est particulièrement critique à l'ère de l'IA, où les systèmes automatisés peuvent accéder à de vastes quantités de données d'une manière qui diffère considérablement des schémas d'utilisation humains normaux. Cependant, Snowflake n'offre aucune surveillance native de l'activité et ne fournit que des journaux d'évènements bruts qui sont disponibles dans un délai de 45 minutes à 3 heures et ne sont conservés que pendant 90 jours.
Varonis permet aux équipes de sécurité et aux administrateurs de données d'identifier les données sensibles, d'assurer et de maintenir le principe du moindre privilège, et de détecter et d’empêcher les activités non autorisées dans les environnements Snowflake.
Varonis offre aux entreprises une sécurité, une visibilité et un contrôle complets sur les données sensibles dans Snowflake, en fournissant les capacités automatisées nécessaires pour sécuriser les données dans Snowflake à l'échelle de l'entreprise. Varonis aide les entreprises :
Varonis utilise des modèles d'IA avancés et la correspondance de motifs pour découvrir et classifier automatiquement les données sensibles dans toutes les bases de données, schémas, tableaux et colonnes de Snowflake. Cela comprend les données structurées qui ne sont pas forcément étiquetées comme sensibles, telles que les champs personnalisés, les tableaux dérivés, les données qui deviennent sensibles lorsqu'elles sont combinées avec d'autres ensembles de données, ainsi que les données non structurées telles que les champs de texte libre et les répertoires de fichiers.
La classification par l’IA identifie de nouveaux types de données, tandis que notre bibliothèque complète de plus de 100 politiques de classification prêtes à l’emploi identifie efficacement les données à caractère personnel, les informations médicales protégées, les données financières et d’autres informations réglementées.
Plutôt que d'exiger une analyse manuelle des structures de rôles complexes, Varonis analyse automatiquement les hiérarchies de rôles complexes de Snowflake et détermine les autorisations effectives pour chaque utilisateur sur chaque ressource de données. Cette approche automatisée permet aux entreprises d’assurer et de maintenir le principe du moindre privilège, même dans des environnements complexes de Snowflake.
Varonis établit des bases comportementales pour chaque utilisateur et système accédant à Snowflake, détectant des schémas anormaux pouvant indiquer une compromission, des menaces internes ou des systèmes d'IA accédant de manière inappropriée aux données.
Par exemple, bien qu'il soit normal qu'un analyste de données analyse régulièrement des rapports marketing, il est suspect s'il accède soudainement à des tableaux contenant les données à caractère personnel de clients qu'il n'a jamais utilisées auparavant, surtout si cela se produit en dehors des heures normales de bureau ou implique des extractions de données inhabituellement volumineuses.
Varonis réduit considérablement les faux positifs en concentrant les alertes spécifiquement sur les menaces pesant sur les données sensibles et en fournissant un contexte riche sur ce qui rend chaque activité suspecte.
Pour protéger vos données sensibles dans Snowflake, vous devez être en mesure d'identifier où elles se trouvent, de déterminer qui peut y accéder et de détecter comment elles sont consultées et modifiées.
Seul Varonis offre toutes ces capacités critiques dans une plateforme unique, en relevant les défis clés de l'identification des données sensibles et de la détection des accès anormaux que les outils natifs de Snowflake ont du mal à gérer.
Si vous vous inquiétez des risques potentiels dans votre environnement Snowflake, une évaluation gratuite des risques sur vos données Snowflake est la meilleure façon de commencer. En moins de 24 heures, vous aurez une vue d'ensemble, basée sur les risques, de vos ressources de données les plus critiques et un plan clair pour une remédiation automatisée qui renforcera votre posture de sécurité tout en maintenant la productivité de l'entreprise.