La classification des données est le processus systématique consistant à organiser les données en catégories en fonction de leur sensibilité, de leur valeur et des exigences réglementaires. Dans le contexte de la gouvernance de l’IA, la classification des données détermine quelles informations peuvent être utilisées en toute sécurité avec les outils d’IA et lesquelles doivent être restreintes.
Les niveaux de classification courants comprennent : Public (librement accessible, sûr pour tout outil d’IA), Interne (informations d’entreprise, uniquement les outils d’IA d’entreprise approuvés), Confidentiel (données sensibles susceptibles de causer un préjudice en cas d’exposition, exclues des outils d’IA externes) et Restreint (données hautement sensibles bénéficiant d’une protection légale ou réglementaire, interdites sur tous les outils d’IA).
Pour la gouvernance de l’IA en particulier, la classification des données est essentielle car : les outils d’IA peuvent conserver les données saisies et en tirer des apprentissages, les requêtes et les fichiers téléversés peuvent exposer des informations classifiées, les sorties générées par l’IA héritent de la classification de leurs entrées, et les cadres réglementaires exigent des contrôles de protection des données pour le traitement par l’IA.
La mise en œuvre nécessite des politiques claires associant les types de données aux niveaux de classification, la formation des employés aux procédures de classification, des contrôles techniques (DLP, contrôles d’accès) appliquant les règles de classification, des audits réguliers de l’exactitude de la classification et des outils de classification automatisés pour les grands volumes de données.