L'OHADA représente l'un des systèmes juridiques les plus cohérents et les plus ambitieux du monde — un droit des affaires unifié couvrant 17 pays et 350 millions de personnes. Pourtant, il est quasi-invisible pour les grands modèles de langage. Construire une IA capable de raisonner en droit OHADA est un défi technique, linguistique et juridique de premier ordre. Cet article en documente les étapes, les embûches et les solutions.

1. Comprendre l'OHADA avant de l'entraîner

1.1  Qu'est-ce que l'OHADA ? Rappel pour les non-spécialistes

L'Organisation pour l'Harmonisation en Afrique du Droit des Affaires (OHADA) a été créée par le Traité de Port-Louis du 17 octobre 1993, révisé à Québec le 17 octobre 2008. Son objectif est d'unifier le droit des affaires dans les États membres pour sécuriser les investissements et faciliter les échanges économiques en Afrique subsaharienne francophone — et au-delà, puisque la Guinée-Bissau (lusophones) et la Guinée équatoriale (hispanophone) en font partie.

L'instrument central du système OHADA est l'Acte Uniforme — une norme d'application directe et obligatoire dans tous les États membres, qui prime sur le droit national. Il en existe aujourd'hui 10 Actes Uniformes couvrant : le droit commercial général, les sociétés commerciales et GIE, les sûretés, les procédures simplifiées de recouvrement, les voies d'exécution, les procédures collectives d'apurement du passif, l'arbitrage, la comptabilité, les contrats de transport de marchandises par route, et les sociétés coopératives.

1.2  La cartographie des 17 États membres : un défi de diversité

Entraîner un modèle sur le droit OHADA ne revient pas à entraîner sur un corpus uniforme. Si les Actes Uniformes s'imposent à tous, chaque État conserve un droit national propre pour les matières non harmonisées (droit de la famille, successions, droit foncier, droit constitutionnel). Le modèle doit donc être capable de distinguer ce qui relève de l'OHADA unifié et ce qui relève du droit national résiduel — en sachant que ces frontières varient selon les États.

État membre Numérisation juridique Particularités
SénégalÉlevéeMeilleur portail JO numérique de la zone
Côte d'IvoireÉlevéeJurisprudence CCJA bien représentée
CamerounBonneDualité common law / droit civil (zones anglophones)
Bénin, Togo, NigerMoyenneJO partiellement numérisés
Tchad, CentrafriqueFaible (< 3 %)Fracture documentaire critique
Guinée-BissauTrès faibleLangue officielle : portugais ; droit OHADA en français
Guinée équatorialeTrès faibleLangue officielle : espagnol ; tradition hispano-africaine

Sources : UNIDA, OHADA.com, rapports CNUCED 2024 — Classification interne Actelyo.

2. La collecte du corpus : où trouver les sources ?

2.1  Les sources primaires disponibles en ligne

La première étape de tout projet de formation d'un LLM juridique est la constitution du corpus. Pour le droit OHADA, les sources primaires accessibles en ligne sont les suivantes :

2.2  Les sources secondaires : doctrine, revues, thèses

Au-delà des textes primaires, un corpus de qualité pour l'entraînement d'un LLM juridique OHADA doit inclure de la doctrine — commentaires d'articles, analyses de jurisprudence, manuels de référence. Les sources doctrinales disponibles numériquement incluent :

2.3  Le problème de la numérisation : la fracture documentaire

L'obstacle le plus inattendu pour les équipes techniques qui s'attaquent au corpus OHADA n'est pas la licence — c'est l'absence pure et simple de documents numériques. Une proportion significative des décisions de jurisprudence des cours nationales des États membres OHADA n'existe qu'en version papier, conservée dans les greffes des tribunaux sans numérisation.

Cette fracture documentaire est quantifiable : selon une étude de l'ERSUMA (2023), moins de 12 % des décisions rendues par les juridictions commerciales des États membres entre 2010 et 2020 sont accessibles sous forme numérique exploitable. Pour la Centrafrique, le Tchad et la Guinée-Bissau, ce taux descend en dessous de 3 %.

La conséquence pratique pour l'entraînement du modèle est double : les jurisprudences disponibles numériquement sur-représentent les États les mieux dotés (Sénégal, Côte d'Ivoire, Cameroun), et le modèle risque d'avoir des performances très inégales selon l'État membre concerné.

3. Le nettoyage et la normalisation du corpus

3.1  Les problèmes spécifiques au corpus juridique africain

Une fois les sources collectées, le travail de nettoyage commence — et il est considérable. Les documents juridiques OHADA présentent plusieurs problèmes techniques qui n'existent pas (ou peu) avec les corpus européens :

3.2  Le pipeline de traitement : de la source brute au token propre

Le pipeline de traitement qu'Actelyo a développé pour le corpus OHADA comprend 8 étapes séquentielles :

  1. Collecte brute — Web scraping ciblé, téléchargement PDF, HTML, archives ZIP des portails officiels (OHADA.com, Ohadata, JO nationaux). Résultat : corpus brut ~4,2 Go.
  2. Conversion de format — Extraction texte depuis PDF (pdfminer.six + fallback Tesseract-OCR 5), HTML vers texte propre (BeautifulSoup), conversion .doc/.docx (LibreOffice headless). Résultat : fichiers texte UTF-8 normalisés.
  3. Correction OCR — Modèle de correction spécialisé francophone (ByT5 fine-tuné sur erreurs OCR africaines) appliqué aux documents détectés comme scannés. Réduction des erreurs accentués : 74 % → 8 %.
  4. Normalisation des caractères — Standardisation Unicode NFC, suppression des caractères parasites, normalisation des apostrophes typographiques et des tirets cadratins.
  5. Détection et segmentation linguistique — Détection de langue par segment (fastText) pour isoler les passages en anglais (Cameroun), espagnol (Guinée équatoriale), portugais (Guinée-Bissau). Chaque segment est étiqueté.
  6. Normalisation des citations légales — Extraction et normalisation des références aux Actes Uniformes via regex + dictionnaire normatif OHADA. Toutes les variantes d'un même article sont ramenées à une forme canonique.
  7. Déduplication — Détection de quasi-doublons par similarité cosinus (MinHash LSH, seuil 0,95) pour éliminer les multiples versions d'un même acte ou décision. Réduction du volume : −32 %.
  8. Segmentation en chunks RAG — Découpage sémantique par article, paragraphe ou alinéa avec fenêtre de chevauchement (overlap 15 %) pour préserver le contexte dans les requêtes RAG. Chunk moyen : 380 tokens.

4. L'annotation : la valeur ajoutée humaine irremplaçable

4.1  Pourquoi l'annotation est le cœur du projet

Un LLM entraîné sur des textes bruts apprend à prédire du texte juridique. C'est insuffisant pour une IA juridique utile. Ce qui fait la différence, c'est la couche d'annotation — la structuration des données brutes en exemples d'apprentissage ciblés sur des tâches juridiques précises.

Pour le droit OHADA, les tâches d'annotation prioritaires sont :

4.2  L'équipe d'annotation : qui peut annoter du droit OHADA ?

C'est ici que le projet devient humainement complexe. Annoter du droit OHADA correctement requiert des profils rares : des juristes maîtrisant à la fois le droit des affaires OHADA et les techniques d'annotation de données pour le NLP. Ces profils n'existent pratiquement pas sur le marché.

La solution pratique consiste à constituer une équipe en deux niveaux :

5. Le fine-tuning : adapter le modèle de base

5.1  Choisir le bon modèle de base

Le fine-tuning consiste à affiner un modèle pré-entraîné sur des données spécialisées. Le choix du modèle de base conditionne toutes les étapes suivantes. Pour le droit OHADA francophone, les critères de sélection sont :

5.2  Les techniques de fine-tuning adaptées au contexte

Deux approches principales sont disponibles pour le fine-tuning juridique :

5.3  L'évaluation : mesurer ce qu'on ne voit pas

L'évaluation d'un LLM juridique est plus complexe que l'évaluation d'un modèle généraliste. Les métriques standard (BLEU, ROUGE) mesurent la similarité textuelle mais ne capturent pas la justesse juridique. Un résumé d'arrêt CCJA peut être lexicalement similaire à l'original et juridiquement inexact — c'est le cas typique des hallucinations bien formulées.

Actelyo a développé un protocole d'évaluation en quatre niveaux :

6. Les défis propres au multilinguisme juridique OHADA

6.1  Le cas particulier du Cameroun : dualité common law / droit civil

Le Cameroun est le seul État OHADA où coexistent deux traditions juridiques : le droit civil français dans les huit régions francophones, et la common law britannique dans les deux régions anglophones (Nord-Ouest et Sud-Ouest). Les juridictions anglophones appliquent les Actes Uniformes OHADA (qui s'imposent à tous) mais à travers le prisme procédural de la common law.

Pour le modèle, cette dualité crée un défi spécifique : il doit pouvoir basculer entre deux modes d'interprétation du même texte normatif selon la région et la juridiction concernées. C'est techniquement l'un des cas les plus complexes à gérer dans un système RAG — et l'un des plus importants commercialement, le Cameroun étant l'une des économies les plus importantes de l'espace OHADA.

6.2  Le droit islamique superposé dans les États du Sahel

Dans plusieurs États membres OHADA — Mali, Niger, Tchad, Sénégal, Comores — le droit de la famille et des successions n'est pas harmonisé par les Actes Uniformes et reste largement gouverné par le droit islamique (Malékite ou Chaféite selon les régions). Pour les juristes travaillant dans ces États, une IA juridique utile doit être capable de raisonner simultanément dans le cadre OHADA pour le droit commercial ET dans le cadre du fiqh al-mu'amalat pour les questions patrimoniales et successorales.

C'est une interface entre deux systèmes normatifs que peu de juristes maîtrisent — et qu'aucun LLM généraliste n'est aujourd'hui en mesure de gérer correctement. Actelyo a inclus dans sa feuille de route un corpus de droit islamique appliqué au contexte sahélien, en partenariat avec des institutions universitaires de la région.

7. Les implications pratiques pour les cabinets utilisant Actelyo

Tout ce travail technique a une traduction directe dans l'expérience des cabinets et des juristes d'entreprise qui utilisent Actelyo dans l'espace OHADA :

Conclusion : l'OHADA mérite son propre modèle

Construire un LLM capable de raisonner correctement en droit OHADA n'est pas une variante du problème du droit français — c'est un projet à part entière, avec ses propres corpus, ses propres défis techniques, ses propres profils d'annotation, et ses propres métriques d'évaluation. La diversité des 17 États membres, l'hétérogénéité des traditions juridiques superposées, et la fracture documentaire numérique font de ce chantier l'un des plus complexes du NLP juridique mondial.

C'est précisément pourquoi Actelyo y consacre des ressources dédiées, avec une conviction : les professions juridiques de l'espace OHADA méritent les mêmes outils d'intelligence artificielle que leurs confrères européens — et ces outils ne peuvent venir que d'une équipe qui comprend la réalité juridique et documentaire du terrain.

Avec Actelyo, un avocat à Douala, Abidjan ou Dakar dispose du même niveau d'assistance IA qu'un avocat parisien — déployé en souveraineté totale, sur des corpus qui correspondent à son droit, dans sa langue et selon sa pratique.