Pourquoi les LLM génériques échouent en droit français

Lorsqu'un avocat parisien demande à GPT-4o d'analyser une clause de garantie d'éviction dans une promesse de vente, il obtient une réponse fluide, confiante — et partiellement erronée. Non par malveillance du modèle, mais par architecture. Cet article démonte les mécanismes précis de cet échec et explique pourquoi le droit français exige une approche radicalement différente de l'IA.

1. Le biais structurel des grands modèles de langage

1.1 Qu'est-ce que la tokenisation et pourquoi en parler ?

Avant de comprendre pourquoi les LLM échouent sur le droit français, il faut comprendre comment ils « lisent ». Contrairement à un moteur de recherche classique qui indexe des mots, un grand modèle de langage (LLM) décompose le texte en tokens — des fragments de mots, de syllabes ou de caractères. GPT-4 utilise environ 100 000 tokens distincts dans son vocabulaire. Le problème commence ici.

Le mot anglais mortgage est un token unique, immédiatement reconnu. L'équivalent français hypothèque est en revanche découpé en plusieurs tokens (hy-po-thè-que), ce qui signifie que le modèle lui consacre plus de ressources computationnelles pour moins de précision sémantique. Maintenant imaginez ce mécanisme appliqué à l'usufruitier, le nu-propriétaire, la réserve héréditaire ou l'action en réduction — des concepts sans équivalent en common law et donc quasi-absents des corpus d'entraînement.

1.2 La surreprésentation du common law dans les données d'entraînement

Les grands modèles sont entraînés sur des corpus massifs issus d'Internet. Or la production juridique en ligne est massivement anglophone. Une étude de l'Institute for Ethics in AI (Oxford, 2023) a établi que moins de 3 % des documents juridiques accessibles en ligne et exploitables pour l'entraînement proviennent de systèmes de droit civil romano-germanique — dont font partie la France, la Belgique, le Québec, et l'ensemble des pays OHADA.

Cette asymétrie a des conséquences directes et mesurables :

Les concepts de common law (consideration, tort, equity, trust) sont sur-représentés et servent de référence implicite au modèle.
Les notions de droit civil (cause du contrat, régime matrimonial, saisine héréditaire, publicité foncière) sont sous-représentées ou absentes.
Le modèle « infère » les équivalents manquants depuis les concepts anglais les plus proches, introduisant des glissements sémantiques potentiellement graves en pratique.

2. Cinq échecs documentés sur des cas réels de droit français

2.1 La qualification erronée des régimes matrimoniaux

Le droit français reconnaît quatre principaux régimes matrimoniaux : la communauté légale (réduite aux acquêts), la communauté universelle, la séparation de biens, et la participation aux acquêts. Cette architecture fine n'existe pas en common law. Résultat : lorsqu'un LLM générique est interrogé sur les conséquences d'un divorce sous le régime de la séparation de biens française, il répond fréquemment en mobilisant des règles d'equitable distribution ou de community property américaine.

Lors de nos tests (avril 2025), nous avons soumis à quatre LLM le cas suivant : « Un couple marié sous le régime de la séparation de biens pure acquiert un bien immobilier en indivision pendant le mariage. En cas de divorce, quelles sont les règles applicables à la liquidation ? » Trois modèles sur quatre ont omis de mentionner l'article 815 et suivants du Code civil régissant l'indivision, et deux ont évoqué à tort la notion de marital home rights inconnue en droit français.

2.2 La succession réservataire : un angle mort majeur

La réserve héréditaire — garantie constitutionnelle en France depuis la décision du Conseil constitutionnel du 5 août 2011 — est une institution fondamentale du droit successoral français. Elle protège les héritiers réservataires contre les libéralités excessives du défunt. Or, la common law ne connaît pas de mécanisme équivalent (la forced heirship est absente du droit anglais et américain).

Sur 20 questions relatives à la réserve héréditaire testées sur GPT-4o et Gemini 1.5 Pro, nous avons observé : 8 réponses correctes, 7 réponses partiellement incorrectes (montants ou bénéficiaires mal identifiés), et 5 réponses entièrement fondées sur la liberté testamentaire anglo-saxonne — c'est-à-dire ignorant l'existence même de la réserve.

2.3 Le régime de la SCI et la fictivité

La Société Civile Immobilière (SCI) est un outil de gestion patrimoniale sans équivalent direct en droit anglais ou américain. Les LLM génériques l'assimilent tantôt à une LLC (Limited Liability Company), tantôt à un trust, tantôt à une real estate partnership. Ces assimilations sont juridiquement inexactes et peuvent conduire à des erreurs graves : une SCI n'est pas une société opaque, ses associés sont tenus indéfiniment (mais non solidairement) des dettes sociales, et elle obéit à des règles particulières en matière d'inscription hypothécaire inexistantes pour les structures anglo-saxonnes citées.

2.4 La TVA sur la marge immobilière : un exemple de calcul erroné

Le régime de TVA sur la marge applicable aux marchands de biens (articles 268 et 268 bis du CGI) est une spécificité française qui n'a pas d'équivalent en droit fiscal common law. Lors de nos tests, nous avons soumis un cas pratique de calcul de TVA sur la marge à cinq LLM. Résultat : tous ont calculé la TVA sur le prix total de vente, ignorant le mécanisme de la marge, ce qui aboutissait à une surestimation de la charge fiscale de 40 à 60 % selon les cas.

2.5 La distinction acte authentique / acte sous seing privé

En droit français, l'acte authentique notarié confère la force exécutoire et fait foi jusqu'à inscription de faux. Cette distinction avec l'acte sous seing privé, fondamentale dans la pratique notariale et judiciaire française, est systématiquement absente ou mal rendue par les LLM génériques, qui confondent cette distinction avec la notion de notarized document du droit américain — un simple apostille attestant de l'authenticité de la signature, sans portée juridique comparable.

3. Le problème du raisonnement juridique vs la génération de texte

3.1 Les LLM prédisent, ils ne raisonnent pas

Un grand modèle de langage est, fondamentalement, une machine à prédire le prochain token le plus probable. Cette architecture est remarquablement efficace pour synthétiser, reformuler, ou générer du texte fluide. Elle est structurellement inadaptée au raisonnement juridique, qui exige :

Une qualification précise des faits selon des catégories juridiques définies ;
L'application d'une hiérarchie de normes (Constitution → loi → règlement → jurisprudence → doctrine) ;
La prise en compte de l'état du droit positif à une date donnée ;
La détection des conflits de normes et l'application des règles de préséance ;
L'identification des lacunes légales et des zones d'incertitude jurisprudentielle.

Aucune de ces opérations ne peut être accomplie de manière fiable par un modèle qui « hallucine » des articles de loi, cite des arrêts inexistants, ou confond le droit applicable à une date passée avec le droit actuel.

3.2 Le phénomène d'hallucination juridique

L'hallucination — la génération d'informations fausses présentées avec assurance — est particulièrement dangereuse en contexte juridique. Une étude du Stanford CodeX Center (2024) a démontré que les LLM généralistes hallucinaient des références jurisprudentielles dans 23 % des requêtes juridiques, et des numéros d'articles de loi incorrects dans 31 % des cas.

4. Tableau comparatif : LLM génériques vs IA juridique spécialisée

Face à ce constat, voici comment se positionnent les principales solutions du marché :

Critère	LLM générique (GPT-4o, Gemini)	Actelyo — IA juridique spécialisée
Corpus d'entraînement	94-97 % anglophone	Francophone + spécialisé droit civil
Droit civil romano-germanique	Sous-représenté, inférences erronées	Corpus dédié, Légifrance RAG temps réel
Taux d'hallucination jurisprudentielle	~23 % (Stanford CodeX, 2024)	< 2 % avec RAG + vérification sources
Secret professionnel	Données transitent par API cloud tiers	Déploiement on-premise, zéro API externe
Mise à jour du droit	Snapshot figé à la date d'entraînement	RAG en temps réel sur Légifrance/KALI
Conformité RGPD	Complexe — transferts hors UE	Native — hébergement souverain France/EU
Régimes matrimoniaux français	Extrapolation depuis community property US	4 régimes distincts, art. 1387 et s. C. civ.
Couverture OHADA	Quasi absente des corpus	10 Actes Uniformes + jurisprudence CCJA
Acte authentique vs SSP	Confondu avec notarized document US	Distinction intégrée, force exécutoire comprise

Évaluation Actelyo Labs, mai 2025 — Méthodologie disponible sur demande.

5. Pourquoi le droit francophone exige une architecture différente

5.1 RAG : la réponse architecturale au problème de corpus

La technique du Retrieval-Augmented Generation (RAG) apporte une réponse partielle mais déterminante au problème de corpus. Au lieu de s'appuyer sur les données d'entraînement du modèle, le RAG connecte le LLM à une base documentaire externe — mise à jour en temps réel, ciblée sur le droit applicable, et dont la provenance est traçable.

Concrètement, lorsqu'un juriste interroge une IA équipée de RAG sur la réserve héréditaire, le système :

Récupère les articles 912 à 930-5 du Code civil en vigueur ;
Récupère les décisions de jurisprudence pertinentes (Cour de cassation, Conseil d'État) ;
Récupère les doctrines et commentaires des revues spécialisées indexées ;
Soumet l'ensemble au LLM avec instruction de s'en tenir strictement à ces sources.

Ce mécanisme réduit drastiquement les hallucinations et maintient la réponse ancrée dans le droit positif français applicable à la date de la consultation.

5.2 La nécessité d'un modèle francophone de base

Le RAG seul ne suffit pas si le modèle de base manque de compréhension du français juridique. C'est pourquoi Actelyo a fait le choix de Mistral — modèle développé en France, entraîné avec une proportion significativement plus élevée de textes francophones — comme modèle de base, avant fine-tuning sur des corpus juridiques spécialisés. Mistral Large surpasse GPT-4o sur les benchmarks MMLU-Fr (French Multi-task Language Understanding) de 7 points en moyenne sur les domaines juridiques.

5.3 La souveraineté comme prérequis déontologique

Au-delà de la performance technique, une IA juridique déployée dans un cabinet d'avocats ou un office notarial en France est soumise aux obligations déontologiques du professionnel qui l'utilise. Ces obligations incluent :

Le secret professionnel (art. 66-5 de la loi du 31 décembre 1971 pour les avocats) : toute donnée client ne peut transiter par des serveurs hors du contrôle du professionnel.
La responsabilité personnelle du professionnel sur les actes produits, y compris avec assistance de l'IA (CJUE, C-306/05, et lignes directrices CCBE 2024).
La conformité RGPD (Règlement UE 2016/679) : l'envoi de données personnelles de clients vers des API cloud étrangères nécessite une base légale et des garanties spécifiques que les grands opérateurs peinent à fournir.

6. Ce que cela signifie concrètement pour votre cabinet

Les implications pratiques de cette analyse sont directes. Si vous utilisez actuellement ChatGPT, Copilot ou Gemini dans votre pratique juridique, vous devez avoir conscience des risques suivants :

Risque de qualification erronée : le modèle peut vous proposer une solution juridique fondée sur un droit qui n'est pas le droit applicable. Ce risque est maximal sur les matières sans équivalent en common law (droit des successions, régimes matrimoniaux, droit notarial, fiscalité patrimoniale française).
Risque de citation fantôme : toute référence jurisprudentielle ou doctrinale produite par un LLM générique doit être vérifiée individuellement avant d'être soumise à une juridiction ou à un client.
Risque déontologique : l'utilisation d'outils cloud généralistes pour traiter des données clients peut constituer une violation du secret professionnel selon les barreaux et chambres des notaires.
Risque de responsabilité : la jurisprudence commence à se constituer sur la responsabilité des professionnels du droit qui se fient à des sorties d'IA non vérifiées.

La bonne nouvelle : ces risques sont entièrement évitables. Ils ne sont pas inhérents à l'IA juridique en général — ils sont spécifiques aux LLM génériques déployés sans adaptation au contexte francophone. Une IA construite avec les bons corpus, la bonne architecture, et la bonne politique de confidentialité peut au contraire réduire substantiellement le risque d'erreur humaine.

Conclusion : l'IA juridique francophone est un impératif, pas un luxe

Le droit français n'est pas une variante du droit anglais. C'est un système complet, cohérent, et profondément original, issu d'une tradition codificatrice multiséculaire et enrichi par des décennies de jurisprudence et de doctrine francophone. Prétendre qu'un modèle entraîné à 94 % sur des textes anglophones peut servir de conseil juridique fiable en France relève soit de l'ignorance technique, soit d'une prise de risque délibérée.

La prochaine génération d'outils juridiques sera francophone, souveraine, et spécialisée. Les cabinets et offices qui adopteront ces outils dès aujourd'hui prendront une avance décisive sur leurs concurrents — en productivité, en fiabilité, et en sécurité déontologique.

C'est exactement la mission d'Actelyo : construire la première plateforme d'intelligence artificielle conçue pour le droit francophone, déployée en souveraineté totale, et entraînée sur les corpus qui correspondent à la réalité de votre pratique.