Fiche pratique : calculer les correspondances

Cette page propose une méthode pas à pas pour reconstituer manuellement la logique de calcul des correspondances, relire les scores et comprendre comment passer d’un rapprochement technique à une conclusion métier.

À quoi sert cette fiche ?

Retrouver la logique de l’application sans perdre la lecture métier.

Pour auditer : vérifier pourquoi un candidat a été retenu ou rejeté.

Pour documenter : expliciter la méthode dans un rapport, une note de cadrage ou une soutenance.

Pour former : montrer la différence entre score lexical, score sémantique et conclusion finale.

Point de vigilance

Manuel ne veut pas dire simpliste.

Le calcul lexical peut être reconstitué très fidèlement dans un tableur.
Le calcul sémantique exact suppose un moteur d’embeddings ; sans lui, on produit seulement une approximation experte.
Le dépassement d’un seuil ne remplace jamais la validation sur le métier, le niveau et le périmètre du bloc.

Vue d’ensemble en 6 étapes

Le fil directeur à suivre pour une reconstitution manuelle propre.

Préparer les deux blocs à comparer

Rassembler pour chaque bloc son code, son intitulé, ses compétences et, côté bloc importé, l’intitulé du projet ou de la certification quand il existe.

Construire le texte pondéré

Reconstituer le texte utilisé par l’outil en donnant plus de poids à l’intitulé et aux compétences qu’au simple code du bloc.

Calculer le lexical

Mesurer le recouvrement de mots avec BM25, Jaccard, les mots importants et la similarité d’intitulé.

Calculer le sémantique

Mesurer la proximité de sens avec le cosinus des embeddings, puis le consolider avec des garde-fous lexicaux.

Calculer le score hybride

Combiner le lexical et le sémantique quand on souhaite un compromis entre proximité de vocabulaire et proximité de sens.

Conclure métier

Lire le score avec le niveau, l’autonomie, la responsabilité, le champ professionnel et les écarts de périmètre avant de conclure.

1. Préparer les textes exactement comme l’outil

La qualité de la préparation conditionne tout le reste du calcul.

Règles de préparation

Normaliser les textes en minuscules, sans accents ni ponctuation, puis réduire les espaces.
Retirer les mots-outils fréquents comme « le », « la », « de », « pour », « avec », etc.
Appliquer une réduction morphologique légère pour rapprocher des formes comme « évaluer », « évaluation » ou « évaluations ».
Conserver la logique de pondération de l’outil : intitulé renforcé, compétences renforcées, et expansion de quelques verbes ou notions proches.

Expansions lexicales les plus utiles

Concevoir / conception / designer → ajouter des variantes proches comme élaborer, construire, architecture, design.
Piloter / manager / encadrer / diriger → ajouter coordonner, supervision, leadership.
Développer / réaliser / mettre en œuvre / production → ajouter produire, implémentation, création.
Analyser / diagnostiquer / évaluer / mesurer → ajouter observer, étudier, diagnostic.
Qualité / conformité / contrôle / norme → ajouter exigence, audit.
Gestion / organiser / planifier → ajouter structurer, administrer, ordonnancer.

Bloc RNCP

Formule pratique : Texte pondéré RNCP = code + (libellé × 3) + (compétences × 2) + expansion lexicale

Le code est gardé comme repère, mais le cœur de la comparaison reste le libellé du bloc et la description de compétences.

Bloc importé

Formule pratique : Texte pondéré importé = numéro + (titre de certification × 2, si disponible) + (intitulé × 3) + (compétences × 2) + expansion lexicale

Le titre du projet de certification est utilisé comme signal complémentaire lorsqu’il existe dans le fichier importé.

2. Méthodologie pas à pas du score lexical

Le score lexical est la base de présélection et le plus simple à reproduire fidèlement.

Étape 1 — Construire le corpus candidat

Prendre tous les blocs importés comme documents de comparaison. Pour chacun, préparer le texte pondéré et compter sa longueur tokenisée.

Étape 2 — Tokeniser le bloc RNCP

Préparer les tokens du bloc RNCP avec la même normalisation que pour les candidats.

Étape 3 — Calculer le BM25 exact

Pour chaque token du RNCP présent dans un candidat, calculer son poids BM25 avec k1 = 1,2 et b = 0,75. Puis sommer les contributions.

Étape 4 — Normaliser le BM25

Diviser le BM25 de chaque candidat par le meilleur BM25 observé parmi tous les candidats. On obtient alors un BM25 normalisé compris entre 0 et 1.

Étape 5 — Ajouter les autres signaux lexicaux

Calculer le Jaccard, le recouvrement des mots importants et la similarité d’intitulé pour le même couple de blocs.

Étape 6 — Obtenir le score lexical final

Appliquer la formule pondérée de l’outil puis comparer le résultat au seuil lexical actif.

Formule exacte de BM25 utilisée dans l’outil

IDF(t) = ln(((N - df(t) + 0,5) / (df(t) + 0,5)) + 1) Score terme = IDF(t) × [ tf(t,d) × (1,2 + 1) ] / [ tf(t,d) + 1,2 × (1 - 0,75 + 0,75 × dl / avgdl) ] BM25(document) = somme des scores de termes BM25 normalisé = BM25(document) / meilleur BM25 observé

BM25 normalisé

50 %

Signal principal de présélection. Il compare les termes du bloc RNCP avec chaque bloc importé en tenant compte de la rareté des mots et de la longueur des textes.

Jaccard

20 %

Intersection ÷ union des ensembles de tokens. Plus les ensembles se recouvrent, plus le score monte.

Mots importants

15 %

Part des mots du RNCP de longueur au moins 5 qui se retrouvent dans le bloc candidat.

Similarité d’intitulé

15 %

Jaccard appliqué aux intitulés seulement, pour vérifier que le titre du bloc raconte bien la même action.

Formule exacte du score lexical

Score lexical = 0,50 × BM25 normalisé + 0,20 × Jaccard + 0,15 × recouvrement des mots importants + 0,15 × similarité d’intitulé

Jaccard : intersection des tokens ÷ union des tokens.

Mots importants : part des tokens RNCP de longueur ≥ 5 retrouvés dans le candidat.

Similarité d’intitulé : Jaccard appliqué au libellé RNCP et à l’intitulé du bloc importé.

3. Méthodologie pas à pas du score sémantique

Le score sémantique exact repose sur un moteur local ; sans ce moteur, on ne peut produire qu’une approximation experte.

Étape 1 — Reprendre les mêmes textes pondérés

Le score sémantique ne repart pas d’un autre texte : il utilise la même base préparée que le lexical pour garder une cohérence de comparaison.

Étape 2 — Générer les embeddings

L’application produit un vecteur pour le bloc RNCP et un vecteur pour chaque candidat via Universal Sentence Encoder dans le navigateur.

Étape 3 — Calculer le cosinus

Le cosinus mesure l’angle entre les vecteurs. Plus il est proche de 1, plus les blocs sont sémantiquement proches.

Étape 4 — Consolider avec des garde-fous lexicaux

Le score sémantique final réinjecte du Jaccard, des mots importants et la similarité d’intitulé pour éviter les faux positifs purement sémantiques.

Étape 5 — Comparer au seuil sémantique

Le meilleur candidat n’est retenu en mode sémantique que si ce score final atteint au moins le seuil actif.

Étape 6 — Calculer le score hybride si besoin

Quand le mode hybride est choisi, on combine le lexical et le sémantique, puis on applique le seuil hybride.

Formule exacte du cosinus

cosinus = (u · v) / (||u|| × ||v||) u = embedding du bloc RNCP ; v = embedding du bloc candidat

Formule exacte du score sémantique

Score sémantique = 0,62 × cosinus des embeddings + 0,18 × Jaccard + 0,10 × recouvrement des mots importants + 0,10 × similarité d’intitulé

Ce qu’il est possible de refaire exactement

La préparation des textes.
Le Jaccard, les mots importants et la similarité d’intitulé.
Le calcul final du score sémantique si le cosinus est déjà disponible.

Ce qui reste une approximation sans moteur

Le cosinus exact des embeddings.
La sensibilité du modèle aux reformulations ou synonymies fines.
Le classement final exact en cas de candidats très proches.

Action principale

40 %

Les deux blocs visent-ils les mêmes verbes d’action : concevoir, piloter, diagnostiquer, produire, animer, encadrer ?

Objet ou livrable

25 %

Portent-ils sur le même objet : projet, système, usager, dispositif, procédure, produit, dossier ?

Finalité / résultat

20 %

La finalité attendue est-elle la même : sécuriser, améliorer, produire, coordonner, analyser, certifier ?

Contexte / autonomie

15 %

Les blocs s’exercent-ils dans le même périmètre de complexité, d’autonomie et de responsabilité ?

Proxy sémantique manuel pour une relecture experte

Proxy sémantique manuel = 0,40 × action principale + 0,25 × objet / livrable + 0,20 × finalité / résultat + 0,15 × contexte / autonomie

Ce proxy manuel est utile pour documenter une appréciation experte, mais il n’est pas identique au score sémantique produit par l’application. Pour retrouver la valeur exacte de l’outil, il faut disposer du cosinus issu du moteur d’embeddings.

4. Score hybride et lecture des seuils

Le score hybride combine les deux logiques puis les confronte au seuil du mode choisi.

Formule exacte du score hybride

Score hybride = 0,45 × score lexical + 0,55 × score sémantique

Mode	Score à lire	Seuil par défaut	Lecture pratique
Lexical	Score lexical	0,18	En dessous : pas de proposition automatique. À partir de 0,18 : entrée possible. À partir de 0,30 : proximité lexicale plus lisible.
Sémantique local	Score sémantique	0,60	En dessous : pas de proposition automatique. À partir de 0,60 : proximité de sens exploitable. À partir de 0,70 : signal plus robuste.
Hybride	Score hybride	0,58	En dessous : pas de proposition automatique. À partir de 0,58 : proposition possible. À partir de 0,62 : équilibre mots / sens plus convaincant.

Important : dépasser un seuil signifie qu’un candidat devient recevable dans le mode choisi.

Mais : cela ne prouve pas à lui seul une correspondance totale.

La conclusion finale dépend encore du champ professionnel, des activités, du niveau, de l’autonomie et de la responsabilité.

5. Fiche terrain — checklists de validation

À utiliser en atelier, en contrôle qualité ou en relecture finale.

Checklist rapide avant calcul

Les deux blocs parlent-ils bien du même champ professionnel ?
Le niveau visé est-il comparable ou y a-t-il un décalage manifeste ?
Les verbes d’action dominants sont-ils alignés ?
Les objets, livrables et finalités sont-ils comparables ?

Checklist de lecture après score

Le score est-il juste au-dessus du seuil ou franchement au-dessus ?
Le candidat couvre-t-il vraiment le cœur du bloc RNCP et non un seul sous-aspect ?
L’autonomie, la responsabilité et la complexité sont-elles cohérentes ?
Les écarts observés justifient-ils une correspondance partielle plutôt que totale ?

Quand conclure à une non-correspondance

Champ professionnel différent malgré des mots proches.
Même vocabulaire mais finalité métier différente.
Écart fort de niveau, d’autonomie ou de responsabilité.
Recouvrement trop faible des activités structurantes du bloc RNCP.

Pages utiles à croiser avec cette fiche

Pour passer de la méthode à l’usage opérationnel.

Seuils

Guide des seuils

Repères sur les valeurs par défaut, les zones de lecture et le fonctionnement global des modes lexical, sémantique et hybride.

Ouvrir le guide des seuils

Métiers

Grille RNCP détaillée

Aide à objectiver les écarts de périmètre, de finalité, d’autonomie et de responsabilité avant de conclure.

Voir la grille RNCP