📍82 Boulevard Haussmann, 75008 Paris

Article 10 IA ACT : Données et gouvernance des données

Table des matières

Explication de l’article

L’article 10 de l‘IA ACT  impose aux fournisseurs de systèmes d’IA à haut risque de garantir la qualité, la représentativité et la fiabilité des données utilisées pour le développement, la validation et les tests.

La qualité des données influence directement la performance, la fiabilité et l’équité du système d’IA.

Des données biaisées ou incomplètes peuvent générer des systèmes d’IA inefficaces ou discriminatoires.

Principes clés :

Qualité des données

Les données doivent être complètes, exactes, pertinentes et à jour. Elles doivent permettre au système d’IA de produire des résultats fiables et sûrs.

Représentativité et diversité

Les jeux de données doivent refléter la diversité des populations et des situations dans lesquelles le système sera utilisé.

L’objectif est d’éviter les biais liés à l’âge, au sexe, à l’origine ethnique, au handicap ou à d’autres caractéristiques protégées.

Identification et correction des biais

Les fournisseurs doivent examiner les biais potentiels dans les données et mettre en œuvre des mesures pour les corriger ou limiter leur impact sur les résultats du système.

Gouvernance des données

L’article impose un processus structuré de gestion des données : collecte, stockage, traitement, documentation et contrôle de qualité.

Chaque étape doit être traçable et documentée, pour permettre la vérification de la conformité par les autorités.

Évaluation continue

Les données doivent être réévaluées régulièrement, en particulier lorsque le système d’IA est mis à jour ou que de nouvelles données sont intégrées.

Cette réévaluation garantit que le système reste fiable et équitable dans le temps.

L’article 10 reconnaît que la qualité des données est au cœur de la fiabilité et de l’éthique des systèmes d’IA à haut risque. Il impose aux fournisseurs une gouvernance rigoureuse, la détection des biais et des mesures correctives pour garantir que les systèmes fonctionnent de manière sûre, équitable et conforme aux droits fondamentaux.

Notions clés à comprendre

Données d’entraînement (Training data) : Données utilisées pour entraîner le modèle d’IA, permettant au système d’apprendre et de constituer sa base de données.

Données de validation (Validation data) : Ensemble séparé de données utilisées pour évaluer la performance du modèle pendant le développement et ajuster les paramètres.

Données de test (Test data): Ensemble de données indépendantes utilisées pour l’évaluation finale de la performance avant déploiement, afin de mesurer la capacité du modèle à généraliser à de nouvelles données.

Gouvernance des données: Ensemble de processus, politiques et responsabilités concernant la collecte, le traitement, le stockage et l’utilisation des données.

Qualité des données : Caractéristiques des données (précision, complétude, représentativité, cohérence, conformité) qui déterminent si elles sont appropriées pour leur utilisation prévue.

Représentativité : Capacité à refléter la réalité. 

Biais de données : Déviations systématiques dans les données qui amplifient les préjugés, inégalités ou discriminations existants dans le monde réel.

Détection de biais : Processus visant à identifier déviations dans les données ou dans les résultats du système d’IA.

Mesures correctives : Actions pour corriger ou limiter l’impact des biais identifiés et améliorer la fiabilité et l’équité du système.

Évaluation continue des données :  Réévaluation régulière des jeux de données, notamment lors de mises à jour ou intégration de nouvelles données, pour maintenir la performance, la fiabilité et l’équité du système.

Exemple pratique

Une entreprise européenne développe un système d’IA pour le recrutement, capable d’analyser CV et vidéos d’entretien afin de sélectionner les candidats les plus adaptés. Ce système est classé à haut risque selon l’Annexe III.

Application de l’article 10 : 

Données d’entraînement, de validation et de test

  • Données d’entraînement : CV et profils d’anciens candidats embauchés avec succès.
  • Données de validation : CV et entretiens d’un échantillon séparé pour vérifier que le modèle apprend correctement les bases sans surapprentissage.
  • Données de test : CV et vidéos récents pour évaluer la performance finale et la capacité du modèle à généraliser à de nouveaux candidats.

Gouvernance des données

  • Mise en place d’une politique interne pour la collecte, le stockage, le traitement et la documentation des données.
  • Définition des responsabilités : équipe de data scientists responsable de la qualité des données, équipe RH chargée de la supervision humaine.

Qualité et représentativité des données

  • Les CV incluent divers profils (genre, âge, origine, expérience professionnelle) pour éviter les biais discriminatoires.
  • Les vidéos d’entretien sont anonymisées et standardisées pour garantir la cohérence et la comparabilité des données.

Détection et correction des biais

  • Analyse statistique pour détecter des biais de sélection systématiques (ex. prédiction moins favorable pour certains groupes).
  • Ajustements du modèle et rééquilibrage des données pour corriger les biais identifiés.

Mesures correctives et évaluation continue

  • Le système intègre un processus d’audit régulier pour réévaluer les données et le modèle après chaque mise à jour ou nouvelle collecte.
  • Documentation complète de toutes les étapes pour démontrer la conformité aux autorités et assurer la traçabilité.

Grâce à l’application de l’article 10, le système de recrutement est conçu pour être fiable, équitable et conforme aux droits fondamentaux, avec un contrôle humain et une gestion proactive de la qualité des données tout au long du cycle de vie.

Vous utilisez des données pour entraîner votre IA, mais maîtrisez-vous leur qualité et leur gouvernance ?
L’article 10 de l’AI Act impose des exigences strictes sur la qualité, la représentativité, la traçabilité et la gouvernance des données utilisées pour les systèmes d’IA à haut risque.

Texte original de l’IA Act

Article 10 – Données et gouvernance des données

1. Les systèmes d’IA à haut risque faisant appel à des techniques qui impliquent l’entraînement de modèles d’IA au moyen de données sont développés sur la base de jeux de données d’entraînement, de validation et de test qui satisfont aux critères de qualité visés aux paragraphes 2 à 5 chaque fois que ces jeux de données sont utilisés.

2. Les jeux de données d’entraînement, de validation et de test sont soumis à des pratiques en matière de gouvernance et de gestion des données appropriées à la destination du systèmes d’IA à haut risque. Ces pratiques concernent en particulier 

a) les choix de conception pertinents;

b) les processus de collecte de données et l’origine des données, ainsi que, dans le cas des données à caractère personnel, la finalité initiale de la collecte de données;

c) les opérations de traitement pertinentes pour la préparation des données, telles que l’annotation, l’étiquetage, le nettoyage, la mise à jour, l’enrichissement et l’agrégation;

d) la formulation d’hypothèses, notamment en ce qui concerne les informations que les données sont censées mesurer et représenter;

e) une évaluation de la disponibilité, de la quantité et de l’adéquation des jeux de données nécessaires;

f) un examen permettant de repérer d’éventuels biais qui sont susceptibles de porter atteinte à la santé et à la sécurité des personnes, d’avoir une incidence négative sur les droits fondamentaux ou de se traduire par une discrimination interdite par le droit de l’Union, en particulier lorsque les données de sortie influencent les entrées pour les opérations futures;

g) les mesures appropriées visant à détecter, prévenir et atténuer les éventuels biais repérés conformément au point f);

h) la détection de lacunes ou déficiences pertinentes dans les données qui empêchent l’application du présent règlement, et la manière dont ces lacunes ou déficiences peuvent être comblées.

3. Les jeux de données d’entraînement, de validation et de test sont pertinents, suffisamment représentatifs et, dans toute la mesure possible, exempts d’erreurs et complets au regard de la destination. Ils possèdent les propriétés statistiques appropriées, y compris, le cas échéant, en ce qui concerne les personnes ou groupes de personnes à l’égard desquels le système d’IA à haut risque est destiné à être utilisé. Ces caractéristiques des jeux de données peuvent être remplies au niveau des jeux de données pris individuellement ou d’une combinaison de ceux-ci.

4. Les jeux de données tiennent compte, dans la mesure requise par la destination, des caractéristiques ou éléments propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d’IA à haut risque est destiné à être utilisé.

5. Dans la mesure où cela est strictement nécessaire aux fins de la détection et de la correction des biais en ce qui concerne les systèmes d’IA à haut risque, conformément au paragraphe 2, points f) et g), du présent article, les fournisseurs de ces systèmes peuvent exceptionnellement traiter des catégories particulières de données à caractère personnel, sous réserve de garanties appropriées pour les droits et libertés fondamentaux des personnes physiques. Outre les dispositions des règlements (UE) 2016/679 et (UE) 2018/1725 et de la directive (UE) 2016/680, toutes les conditions suivantes doivent être réunies pour que ce traitement puisse avoir lieu : 

a) la détection et la correction des biais ne peuvent être satisfaites de manière efficace en traitant d’autres données, y compris des données synthétiques ou anonymisées;

b) les catégories particulières de données à caractère personnel sont soumises à des limitations techniques relatives à la réutilisation des données à caractère personnel, ainsi qu’aux mesures les plus avancées en matière de sécurité et de protection de la vie privée, y compris la pseudonymisation;

c) les catégories particulières de données à caractère personnel font l’objet de mesures visant à garantir que les données à caractère personnel traitées sont sécurisées, protégées et soumises à des garanties appropriées, y compris des contrôles stricts et une documentation de l’accès, afin d’éviter toute mauvaise utilisation et de veiller à ce que seules les personnes autorisées ayant des obligations de confidentialité appropriées aient accès à ces données à caractère personnel;

d) les catégories particulières de données à caractère personnel ne doivent pas être transmises, transférées ou consultées d’une autre manière par d’autres parties;

e) les catégories particulières de données à caractère personnel sont supprimées une fois que le biais a été corrigé ou que la période de conservation des données à caractère personnel a expiré, selon celle de ces deux échéances qui arrive en premier;

f) les registres des activités de traitement visés dans les règlements (UE) 2016/679 et (UE) 2018/1725 et dans la directive (UE) 2016/680 comprennent les raisons pour lesquelles le traitement des catégories particulières de données à caractère personnel était strictement nécessaire pour détecter et corriger les biais, ainsi que la raison pour laquelle cet objectif n’a pas pu être atteint par le traitement d’autres données.

6. En ce qui concerne le développement de systèmes d’IA à haut risque qui ne font pas appel à des techniques qui impliquent l’entraînement de modèles d’IA, les paragraphes 2 à 5 s’appliquent uniquement aux jeux de données de test.


Perspectives avec d’autres textes

Perspectives européennes

RGPD – Traitement des données personnelles

Les données utilisées dans les systèmes d’IA doivent respecter les principes de licéité, loyauté, transparence et minimisation.

L’article 10 complète ces principes en imposant des exigences spécifiques sur la qualité, la représentativité et l’absence de biais dans les données.

Directive Open Data (2019/1024/UE)

  • Favorise l’accès à des données publiques de haute qualité, qui peuvent être utilisées pour satisfaire les exigences de l’article 10.
  • Sert de référence complémentaire pour les données ouvertes fiables dans les systèmes d’IA.

Guidelines on Data Quality and Governance (Commission européenne, 2025)

  • Méthodologies pour évaluer la représentativité, détecter les biais, documenter les données et choisir entre données open source ou propriétaires.

Perspectives françaises 

Loi Informatique et Libertés – Qualité des données

L’article 10 renforce les obligations préexistantes concernant la qualité des données dans le contexte de l’IA.

Avis et recommandations complémentaires 

CNIL – Standards de qualité des données

Recommandations sur ce qui constitue une bonne qualité de données pour les systèmes d’IA à haut risque.

EDPB – Recommendations on Data Governance for AI

Clarifications sur la conformité RGPD, notamment :

  • Consentement pour les données d’entraînement
  • Droit à l’oubli
  • Gestion des données sensibles

Data Quality Assessment Tool – AI Office

Outil pratique pour évaluer la qualité des données selon les exigences de l’article 10.

Des données mal gouvernées peuvent rendre votre IA non conforme. L’équipe de DPO externe de Mon Expert RGPD vous accompagne.

Besoin d’aide pour cet article ?

Comprendre les obligations liées à cet article et éviter les erreurs.

🔓 Échange confidentiel – Sans engagement

Newsletter S'inscrire

Recevez nos derniers articles et actualités directement dans votre boîte de réception !

Votre e-mail est en sécurité 🔒. En entrant votre e-mail, vous acceptez de recevoir nos newsletter et des informations sur nos services. Vos données sont traitées conformément à notre Politique de Confidentialité et vous pouvez vous désinscrire à tout moment.