Quand un juriste lit un contrat, il ne parcourt pas seulement des phrases. Il repère les parties, la date d'effet, l'objet, les obligations, les exceptions, les conditions de résiliation, les mécanismes de responsabilité, les renvois internes et, surtout, les zones de risque implicites. Une IA juridique ne « lit » pas comme un avocat, mais elle peut reproduire une partie de ce travail en combinant OCR, segmentation, extraction d'entités, classification de clauses et récupération documentaire.
Autrement dit, l'IA ne comprend pas un contrat comme un humain au sens fort. Elle transforme un document non structuré en une suite de signaux exploitables : mots, segments, entités, dates, montants, obligations, dépendances entre clauses et patterns de risque. C'est cette transformation qui permet ensuite la revue automatisée, la comparaison de versions, la détection d'anomalies ou la génération de synthèses pour le cabinet.
Pour un acteur comme Actelyo, la vraie question n'est donc pas « l'IA comprend-elle le contrat ? », mais comment construire une chaîne fiable pour lire un contrat français sans casser sa logique juridique ? Cet article répond à cette question en détaillant les étapes techniques, leurs limites et la bonne architecture pour les professions juridiques francophones.
La lecture d'un contrat commence avant le texte
Avant d'identifier la moindre obligation, l'IA doit d'abord accéder à un texte propre. Dans la pratique, les contrats arrivent sous forme de PDF natif, de scan imparfait, de Word exporté, d'annexes image ou de pièces composites, ce qui impose presque toujours une première étape d'ingestion et, si nécessaire, d'OCR.
Cette phase est souvent sous-estimée alors qu'elle conditionne toute la suite. Un mauvais OCR casse la ponctuation, mélange les colonnes, supprime des accents, fusionne des paragraphes et déforme la numérotation des clauses ; dès ce moment, la compréhension du contrat se dégrade.
- PDF natif
- scan
- Word exporté
- annexes image
- OCR si nécessaire
- normalisation texte
- conservation de la mise en page
Si la couche documentaire est mauvaise, le reste de la chaîne sera fragile — quel que soit le modèle utilisé.
Les contrats français sont particulièrement sensibles aux erreurs d'OCR sur les caractères accentués — é, è, ê, à, ù, ç, œ — et sur la ponctuation juridique (guillemets, tirets de définition, points de liste numérotés). Un pipeline d'OCR non calibré pour le français juridique peut introduire des erreurs qui altèrent le sens même d'une clause.
Étape 1 : segmenter le contrat en unités juridiques
Une fois le texte récupéré, l'IA doit segmenter le contrat. Cela signifie reconnaître le préambule, les définitions, les clauses principales, les sous-clauses, les annexes, les tableaux, les signatures et les éventuels renvois entre sections. Cette opération n'est pas triviale, car les contrats ne suivent pas tous la même structure, et une obligation peut s'étendre sur plusieurs paragraphes non contigus.
Les systèmes modernes combinent généralement :
- des indices de mise en page, comme les titres, les numéros de clauses ou les retraits ;
- des modèles NLP capables d'estimer où une clause commence et se termine ;
- des règles métier adaptées au type de contrat — NDA, MSA, bail, contrat de prestation, pacte d'associés ou contrat de travail.
Le but n'est pas seulement de « découper » le document, mais de construire des blocs juridiquement cohérents. Un chunk mal défini peut couper une obligation en deux, séparer une exception de la règle principale ou isoler une pénalité sans son déclencheur, ce qui fausse immédiatement l'analyse.
La segmentation conditionne aussi la qualité du RAG. Si les chunks ne respectent pas la logique juridique des clauses, la récupération documentaire renverra des fragments incohérents. Ce mécanisme est détaillé dans l'article n°5 : RAG vs Fine-tuning pour le droit francophone.
Étape 2 : identifier les entités nommées utiles au juriste
Après la segmentation, l'IA doit reconnaître les entités essentielles. C'est le rôle de la reconnaissance d'entités nommées (NER — Named Entity Recognition), qui sert à détecter et classer des éléments comme les personnes, sociétés, dates, montants, lieux, références légales, numéros de dossier ou parties contractantes.
Dans le domaine juridique, le NER doit être plus fin que dans le NLP généraliste. Il ne suffit pas d'identifier « une organisation » ; il faut aussi distinguer, selon les cas, une partie au contrat, un mandataire, un garant, une juridiction, une loi applicable, une référence à un article de code ou une pièce contractuelle citée dans une annexe.
Les travaux récents sur le Legal NER montrent que l'adaptation au domaine améliore nettement la précision. Un modèle entraîné ou ajusté sur un vocabulaire juridique spécialisé reconnaît mieux les références normatives, les entités procédurales et les structures récurrentes des textes juridiques qu'un modèle générique appliqué tel quel.
Ce que l'IA extrait typiquement dans un contrat français
| Catégorie | Exemples d'éléments extraits | Intérêt juridique |
|---|---|---|
| Parties | Société, client, prestataire, bailleur, preneur | Identifier qui supporte quelle obligation. |
| Dates | Date d'effet, échéance, renouvellement, préavis | Reconstituer la chronologie contractuelle. |
| Montants | Prix, pénalité, plafond de responsabilité, dépôt | Mesurer l'exposition économique. |
| Références juridiques | Loi applicable, juridiction, article cité | Vérifier l'ancrage normatif du contrat. |
| Objets et livrables | Service, prestation, produit, niveau de service | Comprendre ce qui est effectivement dû. |
Étape 3 : reconnaître les clauses et leur fonction
Une IA juridique ne s'arrête pas aux entités. Elle doit aussi comprendre le rôle des clauses : confidentialité, responsabilité, limitation de responsabilité, force majeure, résiliation, reconduction, propriété intellectuelle, indemnisation, non-concurrence, SLA, conformité RGPD, ou encore loi applicable et résolution des litiges.
C'est ici qu'intervient la classification de clauses. Les systèmes de clause extraction commencent par détecter une section, puis l'assignent à une taxonomie. Ensuite, ils extraient les paramètres de la clause : montant plafond, délai de préavis, durée, exceptions, carve-outs, événements déclencheurs, obligations de notification ou conditions de suspension.
Dans un contrat de prestation, par exemple, l'IA peut repérer une clause de résiliation, mais l'enjeu juridique réel est d'aller plus loin :
- qui peut résilier ;
- dans quelles conditions ;
- avec quel préavis ;
- avec quelles conséquences financières ;
- et s'il existe une clause qui neutralise ou contredit partiellement cette possibilité ailleurs dans le texte.
- confidentialité
- responsabilité
- résiliation
- propriété intellectuelle
- paiement
- délai
- montant
- condition
- exception
Étape 4 : extraire les obligations et les dépendances
Le cœur de la lecture contractuelle, c'est l'obligation. Un contrat n'est pas seulement une collection de clauses ; c'est un réseau d'engagements, de délais, de prestations, d'exceptions et de sanctions. C'est pourquoi l'extraction des obligations constitue l'un des usages les plus précieux de l'IA dans le domaine contractuel.
Techniquement, cela suppose de repérer :
- le sujet de l'obligation, c'est-à-dire qui doit agir ;
- l'action attendue ;
- la condition éventuelle ;
- le délai ou l'échéance ;
- la conséquence en cas de manquement ;
- la dépendance avec une autre clause du contrat.
Exemple concret d'extraction :
Ce passage montre bien que l'IA ne « comprend » pas une obligation comme un juriste plaiderait une inexécution. En revanche, elle peut déjà produire une structure d'information très utile pour la revue, le suivi d'exécution ou le contrôle d'un portefeuille de contrats.
Étape 5 : repérer le risque et les clauses atypiques
Une fois les clauses et obligations extraites, la couche suivante consiste à détecter les écarts. Les plateformes de contract analysis mettent en avant cette fonction : signaler les termes inhabituels, les clauses absentes, les déséquilibres de responsabilité ou les paramètres non conformes aux standards du cabinet.
Dans un cabinet, cela peut prendre plusieurs formes :
- comparer un contrat entrant à une clause modèle ;
- signaler une absence de limitation de responsabilité ;
- relever une reconduction tacite trop longue ;
- détecter une clause de confidentialité incomplète ;
- repérer un plafond d'indemnisation trop élevé ;
- ou mettre en évidence un droit de résiliation insuffisamment protecteur.
La détection de risque est très dépendante du contexte métier. Une clause « agressive » dans un contrat fournisseur peut être normale dans un contrat stratégique ; une clause acceptable en corporate peut être insuffisante en santé, finance ou données personnelles. L'IA sait mieux repérer des écarts que juger seule la pertinence juridique finale.
Pourquoi les LLM améliorent la lecture, mais ne suffisent pas seuls
Les LLM ont fait progresser la lecture contractuelle car ils permettent une extraction plus souple, une reformulation plus naturelle et une meilleure capacité à agréger plusieurs indices épars dans un document. Ils sont particulièrement utiles pour résumer, catégoriser, répondre à des questions ciblées et produire des synthèses utilisables par un juriste.
Mais ils ont aussi des limites bien connues. Ils peuvent halluciner une clause absente, mélanger plusieurs sections, surinterpréter une formulation ambiguë, ou présenter avec assurance une conclusion qui devrait rester conditionnelle. Les benchmarks récents sur l'analyse de risque au niveau des clauses confirment que la performance des LLM reste inégale et que la revue humaine demeure essentielle sur les contrats à enjeu.
Un LLM seul ne constitue pas une chaîne de lecture contractuelle fiable. Il doit être contraint par une architecture qui relie l'extraction à la source, conserve la provenance du passage analysé et soumet les cas sensibles à un contrôle humain. Sans cela, une synthèse élégante peut masquer une erreur juridique grave.
Cette architecture est la plus cohérente pour un usage juridique sérieux, car elle combine souplesse des LLM et discipline documentaire. C'est précisément ce qui permet de transformer un document en analyse exploitable sans rompre le lien avec le texte d'origine.
Ce que cela implique pour Actelyo
Pour Actelyo, lire un contrat en français ne consiste pas à envoyer un PDF à un chatbot et attendre un verdict. La promesse produit doit être plus robuste : ingestion multi-format, OCR, segmentation, extraction des entités et obligations, base documentaire AcBase, puis revue guidée avec retour systématique au passage source.
C'est cette approche qui permet de proposer un Contract Review Agent crédible pour les professions juridiques francophones. Le modèle ne doit pas seulement générer une synthèse ; il doit relier chaque alerte à une clause, chaque obligation à un extrait, chaque point de risque à une base de référence ou à un standard interne du cabinet.
Dans une architecture souveraine, Actelyo peut aller plus loin : isoler les contrats d'un cabinet dans son instance, indexer les clauses récurrentes, comparer les variantes, apprendre les standards internes et produire une revue plus rapide sans externaliser les données sensibles. La vraie valeur n'est pas l'automatisation brute, mais la combinaison entre vitesse, traçabilité et contrôle juridique.
La couche RAG utilisée dans cette chaîne contractuelle s'appuie sur les choix d'infrastructure décrits dans l'article n°5 : RAG vs Fine-tuning. Les biais potentiels du modèle sur le texte contractuel civiliste sont analysés dans l'article n°6 : Les biais des LLM en droit civil.
Conclusion
L'IA lit un contrat en français par étapes : elle transforme d'abord le document en texte exploitable, le segmente, repère les entités, classe les clauses, extrait les obligations puis tente de signaler les écarts et les risques. Ce processus est déjà très utile pour accélérer la revue contractuelle, à condition d'être correctement outillé.
La bonne question n'est donc pas de savoir si l'IA remplace la lecture humaine. Elle est de savoir comment l'utiliser pour faire remonter plus vite les bons points d'attention, structurer la donnée contractuelle et redonner du temps au juriste sur l'analyse de fond. C'est précisément sur ce terrain qu'une solution verticale comme Actelyo peut créer un avantage réel pour les cabinets francophones.