Pour les responsables de l'informatique et de la sécurité, la gouvernance de l'IA est devenue une priorité absolue. À l'heure où nous développons de nouveaux modèles IA et utilisons toujours plus de solutions basées sur l'IA, nous devons mettre en œuvre une gouvernance et des politiques bien dimensionnées, capables de minimiser les risques et de préserver la sécurité de nos entreprises.
Il ne fait aucun doute que la gouvernance de l'IA est essentielle. Parce que l'IA dépend des données, toutefois, la gouvernance de l'IA doit commencer par la gouvernance des données. Nous avons besoin de fonctionnalités permettant d'assurer l'intégrité et la protection des données, ainsi que le contrôle des accès pour les données et les modèles IA ; nous avons également besoin de stratégies permettant d'assurer notre conformité aux obligations en matière de confidentialité et de régionalisation des données.
Une meilleure gouvernance des données permet non seulement de réduire les risques associés à l'IA, mais aide également à maximiser l'impact de l'IA sur les entreprises. Si votre entreprise investit dans l'IA, la consolidation de la gouvernance des données ne saurait attendre.
__________________________________________________________________________
Pourquoi est-il si difficile d'assurer la gouvernance des données utilisées par l'IA ? Dans l'ensemble, les défis auxquels sont confrontées les entreprises en matière de gouvernance des données sont restés inchangés depuis des années. Cependant, l'utilisation de données pour créer des modèles IA engendre une complexité supplémentaire à différents égards, notamment :
La préservation de l'intégrité des données
Pour que les modèles IA puissent fournir des réponses pertinentes, ils doivent disposer de données complètes, précises et cohérentes. L'agrégation de ces données et la préservation de leur intégrité tout au long de leur cycle de vie peuvent toutefois être une tâche difficile.
Pour préserver l'intégrité des données, les entreprises doivent adopter une approche à plusieurs facettes, leur permettant de se prémunir contre la corruption, les pertes et les violations de données, ainsi que d'autres risques. Cette approche doit permettre un contrôle étroit de l'accès aux données et aux modèles, afin d'empêcher toute corruption accidentelle ou délibérée. Par ailleurs, afin d'éviter toute dérive potentielle du modèle par rapport à sa finalité, il est également essentiel que les données utilisées aux fins de l'apprentissage restent cohérentes avec les données utilisées pendant le déploiement du modèle.
La préservation de la confidentialité des données
La fondation d'une stratégie saine de gouvernance des données commence par la compréhension de l'emplacement où résident les données. Il devient plus difficile de préserver le caractère privé et la confidentialité des données lorsque ces dernières ont quitté l'entreprise. Et si vous contribuez vos données aux fins de l'apprentissage de grands modèles IA, il est pratiquement certain que vos données quitteront votre entreprise.
Imaginez que les 20 plus grandes entreprises de sécurité décident de partager les données de leur centre d'opérations de sécurité (SOC) afin de former un modèle externe. Ce modèle, hébergé dans un cloud public, pourrait générer des informations extrêmement précises et puissantes. Toutefois, les données de toutes ces entreprises seraient mélangées, et il deviendrait alors incroyablement difficile de garantir que les informations sensibles d'une entreprise particulière restent pleinement protégées.
Le contrôle des accès internes aux modèles IA développés par l'entreprise
L'élaboration de modèles internes, développés par l'entreprise, est beaucoup moins risquée que la contribution de données à des modèles externes. Les modèles développés en interne vous permettent d'empêcher plus efficacement des entreprises ou des individus extérieurs d'accéder à vos données. Toutefois, vous devez toujours contrôler les accès internes à vos modèles.
Vous pourriez décider de développer un modèle IA interne pour le département des ressources humaines, par exemple, ou l'équipe des ressources humaines pourrait souhaiter déployer un chatbot IA afin de répondre aux questions du personnel, ou encore utiliser l'IA pour rationaliser les tâches administratives ou de gestion salariale. Dans la mesure où les données du département des ressources humaines contiennent des informations très sensibles concernant le personnel (le montant de la rémunération de chaque collaborateur, par exemple), vous devriez faire preuve de la plus grande vigilance lors du contrôle des accès internes à ces données et aux modèles en cours d'apprentissage.
La conformité aux obligations en matière de régionalisation et de souveraineté des données
La régionalisation et la souveraineté des données constituent un nouveau défi en matière de gouvernance de l'IA et des données. Les grands modèles IA sont souvent formés dans des clouds publics, qui disposent des ressources de calcul et de stockage nécessaires à la mise en œuvre de l'apprentissage. Toutefois, les datacenters sur lesquels repose le cloud public ne sont pas toujours disponibles dans les pays ou les régions où sont censées résider les données. Par conséquent, les entreprises ont besoin de moyens pour former (et exécuter) les modèles au sein de juridictions spécifiques.
La mise en œuvre d'une gouvernance efficace des données est, depuis au moins 20 ans, un objectif central pour les équipes responsables de l'informatique et de la sécurité. L'essor de l'IA renforce la nécessité d'une solide stratégie de gouvernance des données, couvrant chaque étape du cycle de vie des données. Cette stratégie doit reposer sur des fonctionnalités conçues pour préserver l'intégrité des données, prévenir les pertes de données, contrôler les accès aux données et aux modèles et assurer la conformité aux réglementations relatives à la régionalisation des données.
Préservation de l'intégrité des données
Comment réduire le risque que des données soient modifiées d'une manière qui affecte les modèles ? Le chiffrement des données et le recours à un modèle Zero Trust peuvent contribuer à empêcher les modifications non autorisées, susceptibles de compromettre l'intégrité des données. Les journaux d'audit permettent de suivre les mouvements des données, les utilisateurs qui accèdent à celles-ci et la nature des modifications apportées.
Prévention de l'exfiltration de données
Les fonctionnalités de prévention des pertes de données (DLP, Data Loss Prevention) sont essentielles pour identifier les données et les empêcher de quitter votre entreprise – et ainsi, éviter qu'elles soient utilisées pour alimenter un modèle IA non autorisé.
Les entreprises ont également besoin d'outils capables d'empêcher les applications SaaS de collecter et d'utiliser des données internes aux fins de l'apprentissage des modèles externes de fournisseurs d'applications. Pour l'une des entreprises, au sein de laquelle j'occupais le rôle de RSSI, un fournisseur d'applications avait créé une politique conformément à laquelle toutes les données saisies par les utilisateurs dans l'application pouvaient être intégrées au grand modèle de langage (LLM, Large Language Model) du fournisseur. Je comprenais la finalité de cette politique : il ne fait aucun doute que ces données pourraient aider le fournisseur à améliorer son produit. Par exemple, si nous utilisions l'IA pour répondre à nos tickets d'assistance interne, nous aurions tout intérêt à collecter des données concernant les principales demandes collectées au sein de notre entreprise.
Néanmoins, nous aurions également à cœur d'éviter que des informations potentiellement sensibles quittent notre entreprise par le biais de l'application d'un autre fournisseur. L'utilisation d'une solution CASB (Cloud Access Security Broker) et d'un pare-feu IA peut permettre d'éviter ces pertes de données.
Contrôle des accès
Des fonctionnalités de contrôle granulaire des accès peuvent contribuer à garantir l'intégrité des données et à protéger les informations sensibles utilisées pour l'apprentissage des modèles développés en interne. Contrairement aux VPN traditionnels, les fonctionnalités Zero Trust peuvent vous aider à vous assurer que seuls les utilisateurs autorisés peuvent accéder à des données particulières.
Pourquoi le contrôle granulaire des accès est-il si important ? Revenons à l'utilisation de l'IA par le département des ressources humaines : votre entreprise peut utiliser l'IA pour rationaliser les évaluations des performances et proposer des recommandations concernant la rémunération. Vous pourriez alors souhaiter laisser à un responsable la possibilité de consulter les informations concernant sa rémunération et celle de ses collaborateurs directs, mais pas celles d'autres collaborateurs. Des fonctionnalités Zero Trust adéquates peuvent vous donner ce niveau de contrôle.
Respect des règles en matière de régionalisation des données
Des contrôles de régionalisation adéquats vous permettent de décider de l'endroit où sont inspectées les données et de vous assurer que les données et les métadonnées ne quittent pas une région particulière. Par exemple, les métadonnées de journaux peuvent contenir des adresses IP d'utilisateurs, qui sont considérées comme des données personnelles au sein de l'UE. Ces métadonnées doivent rester au sein de l'UE, et des contrôles adéquats de la régionalisation des données vous permettraient d'assurer qu'elles ne sont pas utilisées aux fins de l'apprentissage d'un modèle aux États-Unis.
Nous assistons à une phase critique de l'évolution de l'IA, tandis que les entreprises créent et exécutent des modèles qui pourraient redéfinir notre monde au cours des 20 à 30 prochaines années. Pour nous assurer de pouvoir continuer à former et exécuter des modèles IA en toute sécurité, sans exposer les données, réduire la précision des modèles, ni compromettre la conformité, nous devons dès maintenant commencer à consolider la gouvernance en matière de données.
Pour de nombreuses entreprises, un cloud de connectivité peut représenter la meilleure approche pour améliorer la gouvernance des données, en leur permettant de reprendre le contrôle des données sur l'ensemble de leur cycle de vie. Avec une plateforme unifiée de services cloud-native, les entreprises peuvent appliquer les fonctionnalités de protection, de sécurité et de régionalisation des données dont elles ont besoin, tout en évitant la complexité liée à la gestion d'une multitude d'outils distincts.
Un meilleur contrôle des données nous permettra de développer des applications et des modèles IA plus puissants. Nous pouvons nous assurer d'obtenir des résultats précis et de minimiser les risques, aujourd'hui comme à l'avenir.
Cet article fait partie d'une série consacrée aux nouvelles tendances et évolutions qui affectent les décideurs en matière de technologies d'aujourd'hui.
Pour plus d'informations sur la manière dont vous pouvez encourager l'utilisation de l'IA au sein de l'entreprise, tout en préservant la sécurité, consultez le guide Garantir la sûreté des pratiques concernant l'IA : Guide de la création d'une stratégie évolutive en matière d'IA à l'intention des RSSI.
Grant Bourzikas – @grantbourzikas
Chief Security Officer, Cloudflare
Cet article vous permettra de mieux comprendre les aspects suivants :
Pourquoi une gouvernance efficace de l'IA est tributaire d'une gouvernance stricte des données
4 défis essentiels liés à la gouvernance des données utilisées par l'IA
Stratégies pour renforcer la gouvernance des données