Comment entraîner un LLM sur le droit OHADA

L'OHADA représente l'un des systèmes juridiques les plus cohérents et les plus ambitieux du monde — un droit des affaires unifié couvrant 17 pays et 350 millions de personnes. Pourtant, il est quasi-invisible pour les grands modèles de langage. Construire une IA capable de raisonner en droit OHADA est un défi technique, linguistique et juridique de premier ordre. Cet article en documente les étapes, les embûches et les solutions.

1. Comprendre l'OHADA avant de l'entraîner

1.1 Qu'est-ce que l'OHADA ? Rappel pour les non-spécialistes

L'Organisation pour l'Harmonisation en Afrique du Droit des Affaires (OHADA) a été créée par le Traité de Port-Louis du 17 octobre 1993, révisé à Québec le 17 octobre 2008. Son objectif est d'unifier le droit des affaires dans les États membres pour sécuriser les investissements et faciliter les échanges économiques en Afrique subsaharienne francophone — et au-delà, puisque la Guinée-Bissau (lusophones) et la Guinée équatoriale (hispanophone) en font partie.

L'instrument central du système OHADA est l'Acte Uniforme — une norme d'application directe et obligatoire dans tous les États membres, qui prime sur le droit national. Il en existe aujourd'hui 10 Actes Uniformes couvrant : le droit commercial général, les sociétés commerciales et GIE, les sûretés, les procédures simplifiées de recouvrement, les voies d'exécution, les procédures collectives d'apurement du passif, l'arbitrage, la comptabilité, les contrats de transport de marchandises par route, et les sociétés coopératives.

1.2 La cartographie des 17 États membres : un défi de diversité

Entraîner un modèle sur le droit OHADA ne revient pas à entraîner sur un corpus uniforme. Si les Actes Uniformes s'imposent à tous, chaque État conserve un droit national propre pour les matières non harmonisées (droit de la famille, successions, droit foncier, droit constitutionnel). Le modèle doit donc être capable de distinguer ce qui relève de l'OHADA unifié et ce qui relève du droit national résiduel — en sachant que ces frontières varient selon les États.

État membre	Numérisation juridique	Particularités
Sénégal	Élevée	Meilleur portail JO numérique de la zone
Côte d'Ivoire	Élevée	Jurisprudence CCJA bien représentée
Cameroun	Bonne	Dualité common law / droit civil (zones anglophones)
Bénin, Togo, Niger	Moyenne	JO partiellement numérisés
Tchad, Centrafrique	Faible (< 3 %)	Fracture documentaire critique
Guinée-Bissau	Très faible	Langue officielle : portugais ; droit OHADA en français
Guinée équatoriale	Très faible	Langue officielle : espagnol ; tradition hispano-africaine

Sources : UNIDA, OHADA.com, rapports CNUCED 2024 — Classification interne Actelyo.

2. La collecte du corpus : où trouver les sources ?

2.1 Les sources primaires disponibles en ligne

La première étape de tout projet de formation d'un LLM juridique est la constitution du corpus. Pour le droit OHADA, les sources primaires accessibles en ligne sont les suivantes :

OHADA.com : portail officiel hébergeant les textes des 10 Actes Uniformes, le Traité révisé, et les règlements de procédure. Les textes sont en accès libre mais leur qualité OCR est variable et plusieurs versions sont parfois coexistantes sans indication de la version en vigueur.
UNIDA (Union Internationale du Notariat) : base de données de jurisprudence OHADA, particulièrement la jurisprudence de la CCJA, partiellement indexée et annotée.
Ohadata : base de données de doctrine et jurisprudence OHADA gérée par l'École Régionale Supérieure de la Magistrature (ERSUMA). Riche mais avec des discontinuités de couverture temporelle.
Portails juridiques nationaux : chaque État membre dispose (avec des niveaux de qualité très variables) d'un Journal officiel numérisé. Le Sénégal (jo.gouv.sn), la Côte d'Ivoire et le Cameroun sont les mieux dotés.
Dalloz Afrique, LexisNexis Afrique : bases commerciales couvrant la doctrine et la jurisprudence OHADA avec une qualité éditoriale élevée, mais sous licence payante.

2.2 Les sources secondaires : doctrine, revues, thèses

Au-delà des textes primaires, un corpus de qualité pour l'entraînement d'un LLM juridique OHADA doit inclure de la doctrine — commentaires d'articles, analyses de jurisprudence, manuels de référence. Les sources doctrinales disponibles numériquement incluent :

La Revue de Droit Uniforme (RDU/UNIDROIT), accessible partiellement en ligne ;
Les actes de colloques OHADA (ERSUMA, UNIDA, CCJA) souvent disponibles en PDF ;
Les thèses doctorales soutenues dans les universités d'Afrique francophone et dans les universités françaises (ANRT, TEL, theses.fr) ;
Les mémoires de Master Droit des Affaires spécialisés OHADA (Yaoundé II, Abidjan, Dakar, Paris I, Paris II).

2.3 Le problème de la numérisation : la fracture documentaire

L'obstacle le plus inattendu pour les équipes techniques qui s'attaquent au corpus OHADA n'est pas la licence — c'est l'absence pure et simple de documents numériques. Une proportion significative des décisions de jurisprudence des cours nationales des États membres OHADA n'existe qu'en version papier, conservée dans les greffes des tribunaux sans numérisation.

Cette fracture documentaire est quantifiable : selon une étude de l'ERSUMA (2023), moins de 12 % des décisions rendues par les juridictions commerciales des États membres entre 2010 et 2020 sont accessibles sous forme numérique exploitable. Pour la Centrafrique, le Tchad et la Guinée-Bissau, ce taux descend en dessous de 3 %.

La conséquence pratique pour l'entraînement du modèle est double : les jurisprudences disponibles numériquement sur-représentent les États les mieux dotés (Sénégal, Côte d'Ivoire, Cameroun), et le modèle risque d'avoir des performances très inégales selon l'État membre concerné.

3. Le nettoyage et la normalisation du corpus

3.1 Les problèmes spécifiques au corpus juridique africain

Une fois les sources collectées, le travail de nettoyage commence — et il est considérable. Les documents juridiques OHADA présentent plusieurs problèmes techniques qui n'existent pas (ou peu) avec les corpus européens :

Qualité OCR dégradée : de nombreux documents ont été numérisés par scan sans OCR, ou avec un OCR mal adapté aux polices typographiques utilisées dans les imprimeries africaines des années 1990-2010. Les erreurs de reconnaissance affectent particulièrement les caractères accentués (é, è, ê, ç, à) — cruciaux en français juridique.
Multilinguisme interne : certains actes notariés et décisions judiciaires, notamment au Cameroun et en Guinée équatoriale, alternent entre deux langues officielles dans le même document. Les modèles de segmentation standard ne gèrent pas bien ces alternances.
Hétérogénéité des formats : PDF natifs, PDF scannés, HTML des portails officiels, Word (.doc et .docx), et même des formats propriétaires des années 2000 (WordPerfect) coexistent dans les corpus bruts.
Variabilité orthographique : les noms propres (villes, personnes, tribunaux) présentent des orthographes multiples d'un document à l'autre. La normalisation requiert un dictionnaire géographique africain spécialisé.
Références légales non standardisées : la citation des Actes Uniformes varie (« AUSC », « A.U.S.C. », « Acte Uniforme sur les Sociétés Commerciales », « OHADA/AUSC ») sans convention uniforme, ce qui complique l'extraction des relations légales.

3.2 Le pipeline de traitement : de la source brute au token propre

Le pipeline de traitement qu'Actelyo a développé pour le corpus OHADA comprend 8 étapes séquentielles :

Collecte brute — Web scraping ciblé, téléchargement PDF, HTML, archives ZIP des portails officiels (OHADA.com, Ohadata, JO nationaux). Résultat : corpus brut ~4,2 Go.
Conversion de format — Extraction texte depuis PDF (pdfminer.six + fallback Tesseract-OCR 5), HTML vers texte propre (BeautifulSoup), conversion .doc/.docx (LibreOffice headless). Résultat : fichiers texte UTF-8 normalisés.
Correction OCR — Modèle de correction spécialisé francophone (ByT5 fine-tuné sur erreurs OCR africaines) appliqué aux documents détectés comme scannés. Réduction des erreurs accentués : 74 % → 8 %.
Normalisation des caractères — Standardisation Unicode NFC, suppression des caractères parasites, normalisation des apostrophes typographiques et des tirets cadratins.
Détection et segmentation linguistique — Détection de langue par segment (fastText) pour isoler les passages en anglais (Cameroun), espagnol (Guinée équatoriale), portugais (Guinée-Bissau). Chaque segment est étiqueté.
Normalisation des citations légales — Extraction et normalisation des références aux Actes Uniformes via regex + dictionnaire normatif OHADA. Toutes les variantes d'un même article sont ramenées à une forme canonique.
Déduplication — Détection de quasi-doublons par similarité cosinus (MinHash LSH, seuil 0,95) pour éliminer les multiples versions d'un même acte ou décision. Réduction du volume : −32 %.
Segmentation en chunks RAG — Découpage sémantique par article, paragraphe ou alinéa avec fenêtre de chevauchement (overlap 15 %) pour préserver le contexte dans les requêtes RAG. Chunk moyen : 380 tokens.

4. L'annotation : la valeur ajoutée humaine irremplaçable

4.1 Pourquoi l'annotation est le cœur du projet

Un LLM entraîné sur des textes bruts apprend à prédire du texte juridique. C'est insuffisant pour une IA juridique utile. Ce qui fait la différence, c'est la couche d'annotation — la structuration des données brutes en exemples d'apprentissage ciblés sur des tâches juridiques précises.

Pour le droit OHADA, les tâches d'annotation prioritaires sont :

NER juridique (Named Entity Recognition) : identification et classification des entités — actes uniformes, articles, juridictions, parties, dates, montants, qualifications (créancier, débiteur, garant…).
Extraction de relations : identifier qu'un article X de l'AUDCG « modifie » l'article Y, qu'une décision de la CCJA « casse » un arrêt de cour d'appel nationale, qu'une garantie est « constituée en vertu de » tel article de l'AUS.
Classification de documents : distinguer automatiquement une décision CCJA, un arrêt national, un acte uniforme, un décret d'application national, une circulaire ministérielle.
Question-Answering juridique : constitution de paires (question, réponse) sur des cas pratiques OHADA, vérifiées par des juristes spécialisés.
Résumé d'arrêt : paires (décision complète, syllabus de synthèse) permettant au modèle d'apprendre à produire des résumés fidèles et juridiquement précis.

4.2 L'équipe d'annotation : qui peut annoter du droit OHADA ?

C'est ici que le projet devient humainement complexe. Annoter du droit OHADA correctement requiert des profils rares : des juristes maîtrisant à la fois le droit des affaires OHADA et les techniques d'annotation de données pour le NLP. Ces profils n'existent pratiquement pas sur le marché.

La solution pratique consiste à constituer une équipe en deux niveaux :

Annotateurs de premier niveau : étudiants avancés en master Droit des affaires dans les universités OHADA (Yaoundé II, Abidjan, Ouagadougou, Dakar), formés à l'annotation en 3 jours. Ils traitent les tâches mécaniques : NER, classification de documents, segmentation.
Validateurs experts : avocats ou juristes d'entreprise expérimentés en droit OHADA, qui vérifient les annotations sur les tâches complexes (qualification juridique, extraction de raisonnement, QA). Taux de révision estimé : 25 à 40 % des annotations de premier niveau.

5. Le fine-tuning : adapter le modèle de base

5.1 Choisir le bon modèle de base

Le fine-tuning consiste à affiner un modèle pré-entraîné sur des données spécialisées. Le choix du modèle de base conditionne toutes les étapes suivantes. Pour le droit OHADA francophone, les critères de sélection sont :

Couverture linguistique française : le modèle doit avoir été entraîné sur un volume significatif de textes français. Mistral 7B et Mistral Large satisfont ce critère nettement mieux que LLaMA-3 ou Gemma-2.
Licence commerciale compatible : les modèles Meta (LLaMA) imposent des restrictions d'usage commercial au-delà d'un certain seuil d'utilisateurs. Mistral (licence Apache 2.0 pour les versions 7B) ou des modèles comme Qwen2.5 offrent plus de liberté.
Taille vs performance : un modèle de 7B paramètres fine-tuné sur un corpus juridique spécialisé surpasse souvent un modèle de 70B généraliste sur des tâches juridiques ciblées. Pour un déploiement on-premise dans un cabinet, la taille compte : Mistral 7B tourne sur un serveur équipé d'un GPU Nvidia A100 80GB ou deux GPU A6000.

5.2 Les techniques de fine-tuning adaptées au contexte

Deux approches principales sont disponibles pour le fine-tuning juridique :

SFT — Supervised Fine-Tuning : le modèle est entraîné sur des paires (instruction, réponse attendue). C'est l'approche la plus directe pour des tâches définies comme le résumé d'arrêt ou l'extraction de clauses. Elle requiert des données annotées de haute qualité mais en volume modéré (5 000 à 50 000 exemples).
LoRA / QLoRA — Low-Rank Adaptation : technique de fine-tuning à faible empreinte computationnelle, qui n'ajuste qu'une fraction des paramètres du modèle. Particulièrement adaptée aux projets avec budget GPU limité. QLoRA permet de fine-tuner un modèle 13B sur un GPU grand public (RTX 4090) en quelques jours.

5.3 L'évaluation : mesurer ce qu'on ne voit pas

L'évaluation d'un LLM juridique est plus complexe que l'évaluation d'un modèle généraliste. Les métriques standard (BLEU, ROUGE) mesurent la similarité textuelle mais ne capturent pas la justesse juridique. Un résumé d'arrêt CCJA peut être lexicalement similaire à l'original et juridiquement inexact — c'est le cas typique des hallucinations bien formulées.

Actelyo a développé un protocole d'évaluation en quatre niveaux :

Métriques automatiques : BLEU-4, ROUGE-L, BERTScore sur les tâches de génération.
Benchmark juridique maison : 500 questions de droit OHADA à réponse vérifiable (texte de loi, décision CCJA) avec notation automatique.
Test de qualification : 50 cas pratiques soumis à un panel de 5 juristes OHADA expérimentés, qui notent la justesse, la complétude et la sécurité de chaque réponse.
Test d'hallucination : 100 questions sur des articles inexistants, des décisions fictives ou des dispositions abrogées — le modèle doit reconnaître l'absence de réponse plutôt que d'inventer.

6. Les défis propres au multilinguisme juridique OHADA

6.1 Le cas particulier du Cameroun : dualité common law / droit civil

Le Cameroun est le seul État OHADA où coexistent deux traditions juridiques : le droit civil français dans les huit régions francophones, et la common law britannique dans les deux régions anglophones (Nord-Ouest et Sud-Ouest). Les juridictions anglophones appliquent les Actes Uniformes OHADA (qui s'imposent à tous) mais à travers le prisme procédural de la common law.

Pour le modèle, cette dualité crée un défi spécifique : il doit pouvoir basculer entre deux modes d'interprétation du même texte normatif selon la région et la juridiction concernées. C'est techniquement l'un des cas les plus complexes à gérer dans un système RAG — et l'un des plus importants commercialement, le Cameroun étant l'une des économies les plus importantes de l'espace OHADA.

6.2 Le droit islamique superposé dans les États du Sahel

Dans plusieurs États membres OHADA — Mali, Niger, Tchad, Sénégal, Comores — le droit de la famille et des successions n'est pas harmonisé par les Actes Uniformes et reste largement gouverné par le droit islamique (Malékite ou Chaféite selon les régions). Pour les juristes travaillant dans ces États, une IA juridique utile doit être capable de raisonner simultanément dans le cadre OHADA pour le droit commercial ET dans le cadre du fiqh al-mu'amalat pour les questions patrimoniales et successorales.

C'est une interface entre deux systèmes normatifs que peu de juristes maîtrisent — et qu'aucun LLM généraliste n'est aujourd'hui en mesure de gérer correctement. Actelyo a inclus dans sa feuille de route un corpus de droit islamique appliqué au contexte sahélien, en partenariat avec des institutions universitaires de la région.

7. Les implications pratiques pour les cabinets utilisant Actelyo

Tout ce travail technique a une traduction directe dans l'expérience des cabinets et des juristes d'entreprise qui utilisent Actelyo dans l'espace OHADA :

Rédaction d'actes constitutifs : le modèle connaît les exigences formelles de l'AUDSC (mentions obligatoires des statuts, conditions de forme des assemblées générales) et les adapte aux spécificités du droit national applicable.
Analyse de sûretés : l'Acte Uniforme sur les Sûretés (AUS révisé en 2010) est intégralement indexé avec sa jurisprudence CCJA. Le modèle peut analyser la validité d'une garantie, identifier les formalités manquantes et proposer les corrections.
Veille jurisprudentielle CCJA : l'agent de veille Actelyo surveille les nouvelles décisions de la CCJA publiées sur le portail officiel et les intègre automatiquement dans la base RAG sans intervention humaine.
Rédaction multilingue : pour les cabinets opérant au Cameroun, le modèle peut rédiger en français et en anglais juridique (common law variant) sur le même dossier OHADA.

Conclusion : l'OHADA mérite son propre modèle

Construire un LLM capable de raisonner correctement en droit OHADA n'est pas une variante du problème du droit français — c'est un projet à part entière, avec ses propres corpus, ses propres défis techniques, ses propres profils d'annotation, et ses propres métriques d'évaluation. La diversité des 17 États membres, l'hétérogénéité des traditions juridiques superposées, et la fracture documentaire numérique font de ce chantier l'un des plus complexes du NLP juridique mondial.

C'est précisément pourquoi Actelyo y consacre des ressources dédiées, avec une conviction : les professions juridiques de l'espace OHADA méritent les mêmes outils d'intelligence artificielle que leurs confrères européens — et ces outils ne peuvent venir que d'une équipe qui comprend la réalité juridique et documentaire du terrain.

Avec Actelyo, un avocat à Douala, Abidjan ou Dakar dispose du même niveau d'assistance IA qu'un avocat parisien — déployé en souveraineté totale, sur des corpus qui correspondent à son droit, dans sa langue et selon sa pratique.