Rassembler pour chaque bloc son code, son intitulé, ses compétences et, côté bloc importé, l’intitulé du projet ou de la certification quand il existe.
Fiche pratique : calculer les correspondances
Cette page propose une méthode pas à pas pour reconstituer manuellement la logique de calcul des correspondances, relire les scores et comprendre comment passer d’un rapprochement technique à une conclusion métier.
Retrouver la logique de l’application sans perdre la lecture métier.
Manuel ne veut pas dire simpliste.
- Le calcul lexical peut être reconstitué très fidèlement dans un tableur.
- Le calcul sémantique exact suppose un moteur d’embeddings ; sans lui, on produit seulement une approximation experte.
- Le dépassement d’un seuil ne remplace jamais la validation sur le métier, le niveau et le périmètre du bloc.
Le fil directeur à suivre pour une reconstitution manuelle propre.
Reconstituer le texte utilisé par l’outil en donnant plus de poids à l’intitulé et aux compétences qu’au simple code du bloc.
Mesurer le recouvrement de mots avec BM25, Jaccard, les mots importants et la similarité d’intitulé.
Mesurer la proximité de sens avec le cosinus des embeddings, puis le consolider avec des garde-fous lexicaux.
Combiner le lexical et le sémantique quand on souhaite un compromis entre proximité de vocabulaire et proximité de sens.
Lire le score avec le niveau, l’autonomie, la responsabilité, le champ professionnel et les écarts de périmètre avant de conclure.
La qualité de la préparation conditionne tout le reste du calcul.
- Normaliser les textes en minuscules, sans accents ni ponctuation, puis réduire les espaces.
- Retirer les mots-outils fréquents comme « le », « la », « de », « pour », « avec », etc.
- Appliquer une réduction morphologique légère pour rapprocher des formes comme « évaluer », « évaluation » ou « évaluations ».
- Conserver la logique de pondération de l’outil : intitulé renforcé, compétences renforcées, et expansion de quelques verbes ou notions proches.
- Concevoir / conception / designer → ajouter des variantes proches comme élaborer, construire, architecture, design.
- Piloter / manager / encadrer / diriger → ajouter coordonner, supervision, leadership.
- Développer / réaliser / mettre en œuvre / production → ajouter produire, implémentation, création.
- Analyser / diagnostiquer / évaluer / mesurer → ajouter observer, étudier, diagnostic.
- Qualité / conformité / contrôle / norme → ajouter exigence, audit.
- Gestion / organiser / planifier → ajouter structurer, administrer, ordonnancer.
Le score lexical est la base de présélection et le plus simple à reproduire fidèlement.
Prendre tous les blocs importés comme documents de comparaison. Pour chacun, préparer le texte pondéré et compter sa longueur tokenisée.
Préparer les tokens du bloc RNCP avec la même normalisation que pour les candidats.
Pour chaque token du RNCP présent dans un candidat, calculer son poids BM25 avec k1 = 1,2 et b = 0,75. Puis sommer les contributions.
Diviser le BM25 de chaque candidat par le meilleur BM25 observé parmi tous les candidats. On obtient alors un BM25 normalisé compris entre 0 et 1.
Calculer le Jaccard, le recouvrement des mots importants et la similarité d’intitulé pour le même couple de blocs.
Appliquer la formule pondérée de l’outil puis comparer le résultat au seuil lexical actif.
IDF(t) = ln(((N - df(t) + 0,5) / (df(t) + 0,5)) + 1)
Score terme = IDF(t) × [ tf(t,d) × (1,2 + 1) ] / [ tf(t,d) + 1,2 × (1 - 0,75 + 0,75 × dl / avgdl) ]
BM25(document) = somme des scores de termes
BM25 normalisé = BM25(document) / meilleur BM25 observé
Score lexical = 0,50 × BM25 normalisé + 0,20 × Jaccard + 0,15 × recouvrement des mots importants + 0,15 × similarité d’intitulé
Le score sémantique exact repose sur un moteur local ; sans ce moteur, on ne peut produire qu’une approximation experte.
Le score sémantique ne repart pas d’un autre texte : il utilise la même base préparée que le lexical pour garder une cohérence de comparaison.
L’application produit un vecteur pour le bloc RNCP et un vecteur pour chaque candidat via Universal Sentence Encoder dans le navigateur.
Le cosinus mesure l’angle entre les vecteurs. Plus il est proche de 1, plus les blocs sont sémantiquement proches.
Le score sémantique final réinjecte du Jaccard, des mots importants et la similarité d’intitulé pour éviter les faux positifs purement sémantiques.
Le meilleur candidat n’est retenu en mode sémantique que si ce score final atteint au moins le seuil actif.
Quand le mode hybride est choisi, on combine le lexical et le sémantique, puis on applique le seuil hybride.
cosinus = (u · v) / (||u|| × ||v||)
u = embedding du bloc RNCP ; v = embedding du bloc candidat
Score sémantique = 0,62 × cosinus des embeddings + 0,18 × Jaccard + 0,10 × recouvrement des mots importants + 0,10 × similarité d’intitulé
- La préparation des textes.
- Le Jaccard, les mots importants et la similarité d’intitulé.
- Le calcul final du score sémantique si le cosinus est déjà disponible.
- Le cosinus exact des embeddings.
- La sensibilité du modèle aux reformulations ou synonymies fines.
- Le classement final exact en cas de candidats très proches.
Proxy sémantique manuel = 0,40 × action principale + 0,25 × objet / livrable + 0,20 × finalité / résultat + 0,15 × contexte / autonomie
Le score hybride combine les deux logiques puis les confronte au seuil du mode choisi.
Score hybride = 0,45 × score lexical + 0,55 × score sémantique
| Mode | Score à lire | Seuil par défaut | Lecture pratique |
|---|---|---|---|
|
Lexical
|
Score lexical | 0,18 | En dessous : pas de proposition automatique. À partir de 0,18 : entrée possible. À partir de 0,30 : proximité lexicale plus lisible. |
|
Sémantique local
|
Score sémantique | 0,60 | En dessous : pas de proposition automatique. À partir de 0,60 : proximité de sens exploitable. À partir de 0,70 : signal plus robuste. |
|
Hybride
|
Score hybride | 0,58 | En dessous : pas de proposition automatique. À partir de 0,58 : proposition possible. À partir de 0,62 : équilibre mots / sens plus convaincant. |
À utiliser en atelier, en contrôle qualité ou en relecture finale.
- Les deux blocs parlent-ils bien du même champ professionnel ?
- Le niveau visé est-il comparable ou y a-t-il un décalage manifeste ?
- Les verbes d’action dominants sont-ils alignés ?
- Les objets, livrables et finalités sont-ils comparables ?
- Le score est-il juste au-dessus du seuil ou franchement au-dessus ?
- Le candidat couvre-t-il vraiment le cœur du bloc RNCP et non un seul sous-aspect ?
- L’autonomie, la responsabilité et la complexité sont-elles cohérentes ?
- Les écarts observés justifient-ils une correspondance partielle plutôt que totale ?
- Champ professionnel différent malgré des mots proches.
- Même vocabulaire mais finalité métier différente.
- Écart fort de niveau, d’autonomie ou de responsabilité.
- Recouvrement trop faible des activités structurantes du bloc RNCP.
Pour passer de la méthode à l’usage opérationnel.