Légifrance comme corpus d'entraînement : opportunités et limites

Depuis l'arrivée des grands modèles linguistiques, beaucoup de cabinets rêvent de « nourrir » une IA juridique directement avec Légifrance. Pourquoi se compliquer la vie avec des corpus propriétaires si toutes les normes françaises sont déjà centralisées, gratuites et accessibles ? En pratique, transformer Légifrance en véritable corpus d'entraînement pour une IA juridique francophone est loin d'être trivial. Entre licences, biais temporels, fragmentation des textes et bruit documentaire, ce bijou d'infrastructure publique est à la fois un atout précieux et une source de pièges.

1. Qu'est-ce que Légifrance comme source de données ?

1.1 Une base de référence unique pour le droit français

Légifrance est la plateforme officielle de publication du droit français. Elle centralise la Constitution, les lois et ordonnances, les décrets et arrêtés, les conventions et accords internationaux ainsi qu'une partie des textes européens (directives, règlements). Pour un modèle d'IA juridique, cela signifie avoir accès à une couverture quasiment complète du droit positif français, dans un format standardisé et structuré.

1.2 Formats et métadonnées exploitables

Légifrance propose plusieurs exports : vues HTML pour la lecture humaine, exports XML/JSON pour la consommation machine, et références précises (numéros d'article, alinéas, dates d'entrée en vigueur, textes abrogés ou modifiés). Ces métadonnées sont essentielles pour :

construire une base de connaissances chronologiquement correcte ;
gérer les versions de textes successives ;
tracer les interprétations selon une date de référence précise (« texte tel qu'en vigueur au JJ/MM/AAAA »).

Pour un système RAG ou un modèle fine-tuné, ces éléments permettent de réduire la prolifération de « faux » principes juridiques issus de textes périmés ou mal contextualisés.

1.3 L'accès ouvert, mais pas sans contraintes

Légifrance diffuse ses textes sous Licence Ouverte / Open License, ce qui facilite leur récupération automatique via scripts ou crawlers. Cependant, l'Open License ne signifie pas que tout est libre d'usage sans condition, ni que l'exploitation commerciale est totalement débridée, ni que l'attribution peut être ignorée. Qualité, accès et licence sont trois questions entièrement séparées — nous y revenons en section 5.

2. Opportunités d'un corpus Légifrance pour l'IA juridique

2.1 Une base normative riche et homogène

Là où la plupart des modèles génériques sont entraînés sur des corpus hétéroclites (web, forums, journaux), Légifrance offre une structure textuelle très régulière — articles, alinéas, paragraphes — avec une terminologie juridique stable et une hiérarchie des règles explicite (loi vs décret, abrogations, modifications). Pour un modèle spécialisé en droit français, cela se traduit par :

une meilleure compréhension des articles de code et de leur articulation logique ;
une cohérence dans la mention des textes — plus de « Code civil article 1101 » inventé de toutes pièces ;
une prise en compte rigoureuse des conditions de validité (formes, délais, procédures).

2.2 Fraîcheur relative et actualisation régulière

Légifrance est mis à jour quasi en temps réel avec les nouvelles lois, décrets et arrêtés. Pour un pipeline IA, cela ouvre la possibilité d'une re-synchronisation périodique du corpus sans ré-entraînement complet — l'IA suit l'évolution législative, et le cabinet réduit le risque de conseil fondé sur un texte déjà abrogé ou modifié.

2.3 Une colonne vertébrale pour le RAG

Dans une architecture RAG (Retrieval-Augmented Generation), Légifrance peut servir de base documentaire de référence : l'IA extrait d'abord les textes pertinents, puis génère une réponse contextualisée autour de ces textes. Exemple : pour la question « Quelles sont les conditions d'un contrat de bail commercial en droit français ? », le système RAG récupère l'article L145-1 du Code de commerce, les dispositions générales du Code civil sur les obligations, et la jurisprudence ponctuelle si elle est disponible.

→ Pour aller plus loin

L'architecture RAG elle-même — comparée au fine-tuning — est explorée en détail dans l'article n°5 : RAG vs Fine-tuning pour le droit francophone. Les choix d'infrastructure technique (Docker, pgvector) sont quant à eux couverts dans l'article n°14 : Docker, pgvector et RAG : l'infrastructure d'une IA juridique souveraine.

3. Limites et risques techniques

3.1 Biais temporel et textes obsolètes

Même si Légifrance est régulièrement mis à jour, beaucoup de textes sont anciens, modifiés ou abrogés — et la structure hiérarchique n'est pas toujours triviale à interpréter pour un modèle. Les problèmes concrets sont multiples :

un même article peut apparaître dans plusieurs codes avec des versions légèrement divergentes ;
les corrections et modifications sont signalées par des textes rectificatifs qui ne sont pas toujours clairement fusionnés dans la version consolidée affichée ;
certaines périodes (l'Entre-deux-guerres, les années 1970) sont sur-représentées en raison du volume de lois historiquement accumulées.

Sans un pré-traitement rigoureux des dates et des versions, Légifrance devient un corpus de droit historique plus qu'un outil de droit en vigueur — avec, à la clé, des réponses incohérentes selon la version du texte activée dans la requête.

3.2 Fragmentation et bruit documentaire

Légifrance n'est pas une base de données nettoyée. Elle contient des textes de base, des textes rectificatifs, des textes de consolidation, des commentaires explicatifs et des notices techniques — dans des formats et des niveaux de qualité très hétérogènes. Sans filtrage ciblé, on produit du bruit documentaire :

des passages irrélevants saturent la fenêtre de contexte du modèle ;
des structures répétitives (tableaux de chiffres, listes d'annexes administratives) biaisent la tokenisation ;
des décrets techniques d'une dizaine de mots côtoient des lois de codification de 400 pages — sans que le modèle puisse facilement distinguer leur importance relative.

3.3 Granularité et chunking juridique

Pour un système RAG, il faut découper les textes en chunks exploitables. Or, Légifrance ne fournit pas une structure idéale pour cela : certains articles sont très longs et contiennent plusieurs sous-thèmes indépendants, d'autres sont très courts et ne font sens que dans leur contexte codistiel. La limitation de contexte des modèles (32k à 128k tokens selon les architectures) rend complexe le chargement de plusieurs textes complets simultanément.

⚠ Risque métier

Un chunk mal défini peut couper un raisonnement juridique en deux, sortir un extrait décontextualisé ou générer des résumés apparemment corrects mais juridiquement inexacts. C'est l'une des causes les plus fréquentes de hallucinations bien formulées dans les LLM juridiques non spécialisés.

3.4 Limites de la licence ouverte pour un usage commercial

Même sous Open License, l'exploitation commerciale de Légifrance dans un produit IA payant impose plusieurs obligations : mention de l'auteur (l'État français) et de la source, interdiction de produire des contenus mensongers à partir des données, et documentation de la provenance dans un contexte éditorial transparent. Un cabinet ou un éditeur comme Actelyo doit documenter clairement cette provenance et prévoir des mécanismes de re-vérification réguliers.

4. Pré-traitement technique : de la source brute au token propre

4.1 Récupération et consolidation des données

Pour exploiter Légifrance de manière sérieuse, il faut mettre en place un pipeline ETL (Extract, Transform, Load) structuré autour de trois étapes fondamentales :

Extraction : récupération via les API officielles (data.gouv.fr) ou exports structurés XML/JSON, avec gestion des erreurs HTTP, des limites de taux et des changements de format.
Transformation : nettoyage de l'encodage (UTF-8 strict, gestion des caractères spéciaux), uniformisation des formats, extraction et indexation des métadonnées (date, type de texte, statut d'abrogation, numéro NOR).
Chargement : stockage dans une base vectorielle structurée (pgvector, Qdrant) avec versionnement des chunks pour permettre les mises à jour incrémentales.

4.2 Gestion des versions et de la temporalité

La bonne pratique consiste à indexer chaque texte par timestamp d'entrée en vigueur et de modification, à créer des vues figées « comme en vigueur au JJ/MM/AAAA », et à stocker les changements dans une chronologie appliquée article par article. Pour un modèle d'IA, cela signifie une réponse adaptée à la date de référence demandée, et une réduction drastique des erreurs dues à des textes périmés invoqués comme normes actuelles.

4.3 Nettoyage et normalisation avant tokenisation

Avant de lancer un fine-tuning ou de constituer une base RAG, il faut :

supprimer les commentaires explicatifs non normatifs et les notices techniques ;
normaliser la terminologie (« Code civil », « C. civ. » → forme canonique unique) ;
dédupliquer les textes reproduits dans plusieurs codes avec une détection par similarité (MinHash LSH, seuil ≥ 0,92).

Un modèle entraîné sur un corpus bien normalisé comprend mieux les entités juridiques et produit des références plus cohérentes — ce qui est mesurable dans les benchmarks d'extraction d'articles.

4.4 Chunking adapté à la hiérarchie du droit

Un chunk « standard » technologique de 512 tokens ne fonctionne pas sur Légifrance : le droit est hiérarchique et le sens d'un passage dépend souvent de son contexte immédiat. L'approche d'Actelyo consiste à :

Découpage logique — par article, groupe d'articles cohérents ou section thématique, selon la structure XML native du texte.
Fenêtre de chevauchement — overlap de 15 % entre chunks contigus pour préserver la continuité d'un raisonnement à cheval sur deux articles.
Injection de métadonnées — chaque chunk est enrichi de son titre de code, numéro d'article, date d'entrée en vigueur et statut (en vigueur / abrogé / modifié).
Vectorisation sémantique — encodage via un modèle de type text-embedding-3 ou équivalent francophone, stocké dans pgvector pour des recherches par similarité cosinus.
Score de pertinence pondéré — la proximité sémantique est pondérée par la fraîcheur du texte (les articles récents reçoivent un boost de pertinence) et la hiérarchie normative (la loi prime sur le décret).

→ Architecture complète

Les détails techniques de cette infrastructure — Docker, pgvector, orchestration des conteneurs, chiffrement BYOK — sont documentés dans l'article n°14 : Docker, pgvector et RAG : l'infrastructure d'une IA juridique souveraine.

5. Conformité, droits d'auteur et usage commercial

5.1 Licence ouverte : ce qui est permis, ce qui ne l'est pas

La Licence Ouverte de Légifrance autorise la réutilisation des textes, leur modification dans certaines limites, et leur diffusion sous forme numérique. Elle impose en contrepartie : la mention explicite de la source, la non-altération des textes dans un sens trompeur, et l'acceptation de la responsabilité de l'usage fait des données. Pour un cabinet ou un éditeur, cela implique concrètement de ne pas présenter l'IA comme « propriétaire » du droit, d'indiquer clairement que les réponses sont fondées sur des sources officielles identifiées, et de ne pas commercialiser « le droit » contenu dans Légifrance comme un produit autonome sans attribution.

5.2 RGPD et séparation des flux de données

Lorsqu'un cabinet utilise une IA alimentée par Légifrance dans un environnement on-premise comme Actelyo, il est crucial de séparer les données publiques (Légifrance) des données personnelles et confidentielles (dossiers clients, contrats). Les traces de consultation et les requêtes des utilisateurs ne doivent jamais être liées à des données personnelles sensibles sans base légale explicite. Une analyse d'impact (AIPD, Article 35 RGPD) est recommandée avant tout déploiement à l'échelle d'un cabinet, et la désignation d'un DPO peut s'avérer obligatoire selon la taille de la structure.

6. Alternatives et compléments indispensables

Malgré ses atouts, Légifrance ne peut pas être le seul pilier d'une IA juridique sérieuse. Il lui manque :

La jurisprudence : Légifrance publie une sélection de décisions du Conseil d'État, de la Cour de cassation et du Conseil constitutionnel, mais elle est loin d'être exhaustive. Les bases commerciales (Dalloz, LexisNexis, Jurisdata) offrent une couverture plus complète et mieux indexée.
La doctrine : commentaires d'articles, notes sous arrêt, chroniques, traités — la doctrine est inexistante dans Légifrance. Or, c'est elle qui donne sens aux textes et guide l'interprétation des praticiens.
Les pratiques de cabinet : templates de contrats, conventions de rédaction, modèles d'actes — tout ce qui constitue le savoir-faire tacite d'une structure juridique et qui est impossible à extraire d'une base publique.

Pour un cabinet francophone, l'IA juridique efficace combine Légifrance comme base normative, une base de jurisprudence structurée, et une documentation interne (l'AcBase dans Actelyo) centrée sur les pratiques réelles. C'est la combinaison de ces trois couches — pas Légifrance seul — qui produit des réponses à la fois exactes, actuelles et adaptées au contexte du cabinet.

7. Comment Actelyo intègre Légifrance dans son pipeline

Pour Actelyo, Légifrance est intégré dans un pipeline multi-couche conçu pour la souveraineté et la fiabilité :

RAG sur les textes normatifs : récupération des articles pertinents via pgvector et une base structurée, avec scoring pondéré par fraîcheur et hiérarchie normative.
Fine-tuning partiel : entraînement sur des résumés de textes, des reformulations pédagogiques, et des exemples de consultations réelles anonymisées.
AcBase : couche de documentation interne du cabinet, versionnée et chiffrée, qui contextualise et spécialise les réponses du modèle.
Souveraineté totale : l'ensemble repose sur une instance Docker locale ou on-premise, avec chiffrement de bout en bout, BYOK (Bring Your Own Key) et zéro donnée transmise à des API tierces.

Concrètement, pour un cabinet : Légifrance reste la colonne vertébrale normative, l'IA est renforcée par les données internes, et l'ensemble reste sous contrôle du cabinet — sans aucune exposition à un tiers.

Conclusion

Légifrance est une ressource exceptionnelle — probablement la meilleure infrastructure de droit positif public accessible en Open License dans le monde francophone. Mais l'exploiter pour entraîner un LLM juridique sérieux requiert un pipeline technique rigoureux : gestion des versions, nettoyage du bruit, chunking adapté à la hiérarchie normative, pondération temporelle et compléments doctrinaux et jurisprudentiels.

Traiter Légifrance comme un simple dump à ingérer dans un modèle généraliste, c'est s'exposer à des réponses qui ressemblent au droit sans en être : fluentes, confiantes, et potentiellement erronées sur les points qui comptent. La différence entre une IA juridique utile et une IA juridique dangereuse se joue précisément dans ce travail de pré-traitement invisible — et c'est là qu'Actelyo investit.