Le score lexical sert à repérer les rapprochements fondés sur les mots partagés, les intitulés proches et les recouvrements de vocabulaire important.
Correspondances : Guide des seuils
Cette page explique les différents seuils, à partir de quel score une proposition peut être retenue, et la méthodologie utilisée pour calculer le seuil lexical, le seuil sémantique et le score hybride.
Trois idées simples pour lire correctement les résultats.
Un score élevé ne suffit pas à lui seul.
- Le seuil ne signifie pas automatiquement « correspondance totale ».
- Un score juste au-dessus du seuil peut conduire à une correspondance partielle, voire à une absence de correspondance après analyse métier.
- Les écarts de niveau, d’autonomie ou de responsabilité peuvent faire basculer la conclusion.
- La validation humaine reste utile, surtout pour les cas proches du seuil.
Valeurs actuellement affichées dans l’interface d’analyse.
Le score sémantique local mesure la proximité de sens entre les blocs via le moteur embarqué dans le navigateur.
Le score hybride combine les signaux lexicaux et sémantiques pour offrir un compromis entre rappel, précision et robustesse.
Repères pratiques pour comprendre ce que signifie chaque seuil dans l’outil.
| Mode | Seuil par défaut | En dessous du seuil | Zone d’entrée | Zone plus solide | Zone forte |
|---|---|---|---|---|---|
|
Lexical
Ce seuil s’applique sur un score lexical composite. Il ne correspond pas au BM25 seul.
|
0,18 | En dessous de 0,18, le meilleur candidat n’est pas retenu en mode lexical. | Entre 0,18 et 0,29, le candidat entre dans la zone exploitable, mais il reste souvent fragile. | À partir d’environ 0,30, la proximité lexicale devient en général plus lisible. | À partir de 0,72 avec au moins 0,12 d’écart sur le second candidat, l’outil peut accepter rapidement la proposition en mode hybride. |
|
Sémantique local
Le score sémantique ne repose pas uniquement sur le cosinus d’embedding : il est stabilisé par des signaux lexicaux.
|
0,60 | En dessous de 0,60, il n’y a pas de proposition automatique en mode sémantique. | Entre 0,60 et 0,63, la proposition peut être retenue, mais avec une confiance mesurée. | À partir d’environ 0,64, la proximité de sens devient plus stable. | À partir d’environ 0,70, la proposition devient souvent solide ; à 0,78 ou plus, elle est traitée comme élevée. |
|
Hybride
Le moteur IA externe n’ajuste pas ce seuil : il peut aider à rédiger l’analyse, mais la sélection initiale reste locale.
|
0,58 | En dessous de 0,58, le meilleur candidat n’est pas retenu en mode hybride. | Entre 0,58 et 0,61, la proposition peut être conservée avec une confiance mesurée. | À partir d’environ 0,62, l’équilibre entre mots et sens devient plus convaincant. | À partir d’environ 0,68, la proposition passe souvent dans une zone robuste ; à 0,78 ou plus, elle est classée élevée. |
Le seuil lexical s’applique à un score composite, pas à une simple correspondance mot à mot.
Les textes sont normalisés avant calcul : passage en minuscules, suppression des accents et de la ponctuation, retrait des mots-outils fréquents, puis réduction morphologique des termes pour rapprocher les variantes proches.
L’outil construit un index BM25 sur les blocs importés, puis conserve seulement une courte liste de meilleurs candidats. Selon le volume et le mode choisi, cette liste est resserrée automatiquement pour garder un calcul rapide.
Score lexical = 0,50 × BM25 normalisé + 0,20 × Jaccard + 0,15 × recouvrement des mots importants + 0,15 × similarité d’intitulé
Le seuil sémantique repose sur un moteur local de similarité de sens, stabilisé par des signaux lexicaux.
En mode sémantique ou hybride, l’outil charge un moteur local Universal Sentence Encoder. Chaque bloc RNCP et chaque bloc importé sont convertis en vecteurs de sens, puis comparés par cosinus.
Le score sémantique final ne se limite pas au cosinus. Il réinjecte aussi du Jaccard, du recouvrement de mots importants et de la similarité d’intitulé pour éviter qu’une proximité de sens trop générale écrase les repères métier les plus concrets.
Score sémantique = 0,62 × cosinus des embeddings + 0,18 × Jaccard + 0,10 × recouvrement des mots importants + 0,10 × similarité d’intitulé
Score hybride = 0,45 × score lexical + 0,55 × score sémantique
La réponse dépend du mode sélectionné.
Le meilleur candidat est conservé lorsqu’il atteint au moins le seuil lexical configuré.
- Valeur par défaut : 0,18.
- Acceptation rapide possible si le score est très élevé : max(0,72 ; seuil lexical + 0,18), avec un écart d’au moins 0,12 sur le second candidat.
- Rejet rapide possible si le meilleur score reste sous max(0,20 ; seuil lexical - 0,02).
- Entre les deux, l’outil passe en revue plus finement les candidats avant de conclure.
La correspondance potentielle est retenue lorsque le score sémantique est supérieur ou égal au seuil sémantique.
- Valeur par défaut : 0,60.
- Le score est calculé sur la proximité de sens, pas uniquement sur les mots identiques.
- Ce mode est utile quand les formulations diffèrent mais que les activités et compétences restent proches.
La proposition est retenue lorsque le score hybride atteint au moins le seuil hybride.
- Valeur par défaut : 0,58.
- Le score final combine le lexical et le sémantique local.
- Le moteur IA externe, lorsqu’il est activé, sert surtout à rédiger l’analyse ; la sélection initiale reste pilotée par le score hybride.
Le seuil intervient à un moment précis d’une chaîne de décision plus large.
L’outil commence par repérer les blocs importés les plus proches du bloc RNCP à l’aide d’un score lexical. Cette étape permet de réduire le nombre de candidats avant les calculs plus coûteux.
Selon la stratégie choisie, l’outil calcule ensuite un score sémantique local, puis éventuellement un score hybride qui combine plusieurs signaux.
Le meilleur candidat n’est conservé que s’il atteint le seuil actif du mode choisi. En dessous, il n’y a pas de proposition automatique.
Une fois le candidat retenu, l’outil examine la proximité réelle des thèmes, des actions, du champ professionnel, du contexte d’exercice, de l’autonomie et de la responsabilité.
La conclusion affichée dans le résultat ne dépend donc pas du seuil seul : elle peut conclure à une correspondance totale, partielle ou à une absence de correspondance selon les indices métier réunis.
La catégorie finale repose sur plusieurs indices métier, pas seulement sur le score.
Libellés affichés dans les résultats automatiques.
Quelques repères pour ajuster les seuils sans dégrader la lecture métier.
- Conserver le mode hybride comme réglage principal pour la plupart des usages : c’est le meilleur compromis entre similarité de mots et similarité de sens.
- Monter les seuils lorsque l’outil produit trop de faux positifs ou quand les blocs importés sont très nombreux et très proches entre eux.
- Baisser légèrement les seuils lorsque les formulations diffèrent beaucoup, tout en gardant une relecture humaine des cas proches du seuil.
- Ne jamais lire le score seul : vérifier aussi le niveau visé, l’autonomie, le contexte d’exercice, le périmètre réel des activités et les responsabilités associées.
- Utiliser la page « Niveaux de diplôme » et la « Grille RNCP » pour objectiver les écarts quand un score semble élevé mais que la portée du bloc reste différente.
Pour lire les correspondances avec plus de recul métier.