Correspondances : Guide des seuils

Cette page explique les différents seuils, à partir de quel score une proposition peut être retenue, et la méthodologie utilisée pour calculer le seuil lexical, le seuil sémantique et le score hybride.

Ce qu’il faut retenir

Trois idées simples pour lire correctement les résultats.

1. Les scores vont de 0 à 1 : plus le score est élevé, plus le rapprochement paraît robuste.

2. Le seuil sert à décider si une proposition automatique peut être retenue dans le mode choisi.

3. La conclusion finale (« totale », « partielle », « absence ») dépend ensuite d’une lecture métier plus large : champ professionnel, thèmes, actions, autonomie, responsabilité et contexte d’exercice.

Point de vigilance

Un score élevé ne suffit pas à lui seul.

Le seuil ne signifie pas automatiquement « correspondance totale ».
Un score juste au-dessus du seuil peut conduire à une correspondance partielle, voire à une absence de correspondance après analyse métier.
Les écarts de niveau, d’autonomie ou de responsabilité peuvent faire basculer la conclusion.
La validation humaine reste utile, surtout pour les cas proches du seuil.

Seuils actifs par défaut

Valeurs actuellement affichées dans l’interface d’analyse.

Mode lexical

0,18

Seuil lexical

Le score lexical sert à repérer les rapprochements fondés sur les mots partagés, les intitulés proches et les recouvrements de vocabulaire important.

À partir de quand ? Un bloc peut être retenu à partir du seuil lexical configuré. Par défaut, il entre dans la zone exploitable à partir de 0,18.

Mode sémantique

0,60

Seuil sémantique local

Le score sémantique local mesure la proximité de sens entre les blocs via le moteur embarqué dans le navigateur.

À partir de quand ? En mode sémantique uniquement, une correspondance potentielle est retenue lorsque le score atteint au moins 0,60 par défaut.

Mode hybride

0,58

Seuil hybride

Le score hybride combine les signaux lexicaux et sémantiques pour offrir un compromis entre rappel, précision et robustesse.

À partir de quand ? En mode hybride, une proposition est conservée à partir de 0,58 par défaut.

Les seuils sont configurables dans l’onglet d’analyse. Les explications ci-dessus correspondent aux valeurs par défaut visibles dans l’interface actuelle.

Lecture des différents seuils

Repères pratiques pour comprendre ce que signifie chaque seuil dans l’outil.

Mode	Seuil par défaut	En dessous du seuil	Zone d’entrée	Zone plus solide	Zone forte
Lexical Ce seuil s’applique sur un score lexical composite. Il ne correspond pas au BM25 seul.	0,18	En dessous de 0,18, le meilleur candidat n’est pas retenu en mode lexical.	Entre 0,18 et 0,29, le candidat entre dans la zone exploitable, mais il reste souvent fragile.	À partir d’environ 0,30, la proximité lexicale devient en général plus lisible.	À partir de 0,72 avec au moins 0,12 d’écart sur le second candidat, l’outil peut accepter rapidement la proposition en mode hybride.
Sémantique local Le score sémantique ne repose pas uniquement sur le cosinus d’embedding : il est stabilisé par des signaux lexicaux.	0,60	En dessous de 0,60, il n’y a pas de proposition automatique en mode sémantique.	Entre 0,60 et 0,63, la proposition peut être retenue, mais avec une confiance mesurée.	À partir d’environ 0,64, la proximité de sens devient plus stable.	À partir d’environ 0,70, la proposition devient souvent solide ; à 0,78 ou plus, elle est traitée comme élevée.
Hybride Le moteur IA externe n’ajuste pas ce seuil : il peut aider à rédiger l’analyse, mais la sélection initiale reste locale.	0,58	En dessous de 0,58, le meilleur candidat n’est pas retenu en mode hybride.	Entre 0,58 et 0,61, la proposition peut être conservée avec une confiance mesurée.	À partir d’environ 0,62, l’équilibre entre mots et sens devient plus convaincant.	À partir d’environ 0,68, la proposition passe souvent dans une zone robuste ; à 0,78 ou plus, elle est classée élevée.

Ces zones sont des repères de lecture opérationnels. Elles décrivent le comportement actuel de l’algorithme et des libellés de confiance ; elles ne remplacent pas la vérification métier.

Méthodologie utilisée pour le seuil lexical

Le seuil lexical s’applique à un score composite, pas à une simple correspondance mot à mot.

Étape 1

Prétraitement du texte

Les textes sont normalisés avant calcul : passage en minuscules, suppression des accents et de la ponctuation, retrait des mots-outils fréquents, puis réduction morphologique des termes pour rapprocher les variantes proches.

But : comparer des formes comparables même si l’écriture varie légèrement.

Étape 2

Pré-sélection des meilleurs candidats

L’outil construit un index BM25 sur les blocs importés, puis conserve seulement une courte liste de meilleurs candidats. Selon le volume et le mode choisi, cette liste est resserrée automatiquement pour garder un calcul rapide.

En pratique : le seuil lexical intervient après une présélection locale, pas sur l’ensemble brut des blocs.

Formule du score lexical

Score lexical = 0,50 × BM25 normalisé + 0,20 × Jaccard + 0,15 × recouvrement des mots importants + 0,15 × similarité d’intitulé

BM25 normalisé

50 %

Mesure la force du recouvrement de termes sur le texte complet, en tenant compte de la fréquence et de la longueur des documents.

Jaccard

20 %

Compare les ensembles de tokens partagés entre le bloc RNCP et le bloc importé.

Mots importants

15 %

Mesure le recouvrement des termes les plus significatifs du bloc RNCP.

Similarité d’intitulé

15 %

Vérifie si le libellé du bloc et l’intitulé du candidat racontent sensiblement la même chose.

Seuil lexical par défaut : 0,18.

Lecture correcte : à 0,18, l’outil autorise une proposition ; il ne dit pas encore que la correspondance est forte.

Zone forte : au-delà de 0,72 avec un écart net sur le second candidat, l’outil peut retenir rapidement le meilleur candidat.

Pourquoi un seuil relativement bas ? Le lexical sert aussi de porte d’entrée et de filtre de rappel. Il doit laisser passer des formulations proches sans exiger une quasi-identité de vocabulaire.

À surveiller : un lexique très proche peut masquer un écart de niveau, de périmètre ou de responsabilité.

Méthodologie utilisée pour le seuil sémantique

Le seuil sémantique repose sur un moteur local de similarité de sens, stabilisé par des signaux lexicaux.

Étape 1

Embeddings locaux dans le navigateur

En mode sémantique ou hybride, l’outil charge un moteur local Universal Sentence Encoder. Chaque bloc RNCP et chaque bloc importé sont convertis en vecteurs de sens, puis comparés par cosinus.

But : reconnaître des blocs proches même quand le vocabulaire exact diffère.

Étape 2

Stabilisation par des signaux lexicaux

Le score sémantique final ne se limite pas au cosinus. Il réinjecte aussi du Jaccard, du recouvrement de mots importants et de la similarité d’intitulé pour éviter qu’une proximité de sens trop générale écrase les repères métier les plus concrets.

Conséquence : le seuil sémantique 0,60 porte sur un score enrichi, pas sur le cosinus pur seul.

Formule du score sémantique

Score sémantique = 0,62 × cosinus des embeddings + 0,18 × Jaccard + 0,10 × recouvrement des mots importants + 0,10 × similarité d’intitulé

Cosinus des embeddings

62 %

Compare la proximité de sens globale entre les textes au moyen du moteur local Universal Sentence Encoder.

Jaccard

18 %

Réinjecte un contrôle lexical pour éviter qu’un sens proche sans vocabulaire commun soit survalorisé.

Mots importants

10 %

Vérifie que les termes structurants du bloc RNCP restent visibles dans le candidat.

Similarité d’intitulé

10 %

Stabilise le score sémantique grâce à la cohérence du titre de bloc.

Formule du score hybride

Score hybride = 0,45 × score lexical + 0,55 × score sémantique

Seuil sémantique par défaut : 0,60.

Pourquoi 0,60 ? Parce que le score sémantique est déjà consolidé par plusieurs garde-fous lexicaux. Un score de 0,60 représente donc déjà une proximité de sens exploitable.

Lecture : juste au-dessus du seuil, la confiance reste mesurée ; à partir d’environ 0,64 elle devient moyenne ; au-delà d’environ 0,70 elle devient souvent plus robuste.

Seuil hybride par défaut : 0,58.

Pourquoi légèrement plus bas ? Parce qu’il combine déjà deux familles de preuves : le vocabulaire et le sens. Ce mode est le meilleur compromis pour l’usage courant.

Rappel utile : le moteur IA externe ne choisit pas le candidat initial ; il peut seulement aider à rédiger la justification finale.

À partir de quel seuil y a-t-il une correspondance ?

La réponse dépend du mode sélectionné.

Lexical uniquement

Le meilleur candidat est conservé lorsqu’il atteint au moins le seuil lexical configuré.

Valeur par défaut : 0,18.
Acceptation rapide possible si le score est très élevé : max(0,72 ; seuil lexical + 0,18), avec un écart d’au moins 0,12 sur le second candidat.
Rejet rapide possible si le meilleur score reste sous max(0,20 ; seuil lexical - 0,02).
Entre les deux, l’outil passe en revue plus finement les candidats avant de conclure.

Sémantique locale uniquement

La correspondance potentielle est retenue lorsque le score sémantique est supérieur ou égal au seuil sémantique.

Valeur par défaut : 0,60.
Le score est calculé sur la proximité de sens, pas uniquement sur les mots identiques.
Ce mode est utile quand les formulations diffèrent mais que les activités et compétences restent proches.

Hybride local / hybride + IA externe

La proposition est retenue lorsque le score hybride atteint au moins le seuil hybride.

Valeur par défaut : 0,58.
Le score final combine le lexical et le sémantique local.
Le moteur IA externe, lorsqu’il est activé, sert surtout à rédiger l’analyse ; la sélection initiale reste pilotée par le score hybride.

Fonctionnement global de l’outil

Le seuil intervient à un moment précis d’une chaîne de décision plus large.

Pré-sélection des candidats

L’outil commence par repérer les blocs importés les plus proches du bloc RNCP à l’aide d’un score lexical. Cette étape permet de réduire le nombre de candidats avant les calculs plus coûteux.

Calcul sémantique

Selon la stratégie choisie, l’outil calcule ensuite un score sémantique local, puis éventuellement un score hybride qui combine plusieurs signaux.

Filtrage par seuil

Le meilleur candidat n’est conservé que s’il atteint le seuil actif du mode choisi. En dessous, il n’y a pas de proposition automatique.

Qualification métier

Une fois le candidat retenu, l’outil examine la proximité réelle des thèmes, des actions, du champ professionnel, du contexte d’exercice, de l’autonomie et de la responsabilité.

Synthèse finale

La conclusion affichée dans le résultat ne dépend donc pas du seuil seul : elle peut conclure à une correspondance totale, partielle ou à une absence de correspondance selon les indices métier réunis.

Comment la conclusion finale est-elle décidée ?

La catégorie finale repose sur plusieurs indices métier, pas seulement sur le score.

Synthèse forte

Correspondance totale

Retenue lorsque les blocs sont quasi superposables : même champ, recouvrement très fort des unités de sens, très peu d’écarts de domaine et pas de décalage majeur d’autonomie ou de responsabilité.

Synthèse intermédiaire

Correspondance partielle

Retenue lorsqu’un socle d’activités ou de compétences est réellement partagé, mais qu’une partie du périmètre, du niveau d’intervention ou de la responsabilité reste différente.

Synthèse négative

Absence de correspondance

Retenue lorsqu’il n’y a pas assez d’indices métier communs, lorsque le champ n’est pas le même, ou lorsque les écarts de responsabilité, de contexte ou de périmètre restent trop importants.

En pratique : dépasser le seuil signifie « la proposition mérite d’être retenue par l’algorithme ».

Mais : la conclusion « totale / partielle / absence » dépend ensuite des recouvrements réels de thèmes, d’actions, du champ professionnel partagé, des écarts de périmètre et du niveau d’autonomie.

Lecture des niveaux de confiance

Libellés affichés dans les résultats automatiques.

Mesurée

Le score dépasse le seuil, mais de peu. La proposition mérite une relecture attentive.

Moyenne

Le score dépasse en général le seuil d’au moins 0,04. La proximité est plus solide, mais reste à confirmer au plan métier.

Élevée

Le score dépasse en général le seuil d’au moins 0,10, ou atteint au moins 0,78. La proposition est plus robuste, sans remplacer la validation experte.

Bonnes pratiques de réglage

Quelques repères pour ajuster les seuils sans dégrader la lecture métier.

Conserver le mode hybride comme réglage principal pour la plupart des usages : c’est le meilleur compromis entre similarité de mots et similarité de sens.
Monter les seuils lorsque l’outil produit trop de faux positifs ou quand les blocs importés sont très nombreux et très proches entre eux.
Baisser légèrement les seuils lorsque les formulations diffèrent beaucoup, tout en gardant une relecture humaine des cas proches du seuil.
Ne jamais lire le score seul : vérifier aussi le niveau visé, l’autonomie, le contexte d’exercice, le périmètre réel des activités et les responsabilités associées.
Utiliser la page « Niveaux de diplôme » et la « Grille RNCP » pour objectiver les écarts quand un score semble élevé mais que la portée du bloc reste différente.

Pages utiles à croiser avec ce guide

Pour lire les correspondances avec plus de recul métier.

Méthode

Grille RNCP détaillée

Repères d’analyse des blocs, critères de cohérence, finalité professionnelle, autonomie, responsabilité et vigilance méthodologique.

Ouvrir la grille RNCP

Niveaux

Niveaux de diplôme

Repères utiles pour objectiver les écarts de niveau, de profondeur des savoirs, d’autonomie et de responsabilité.

Voir les niveaux

Pas à pas

Fiche pratique

Méthodologie détaillée pour refaire le calcul manuellement, étape par étape, en lecture terrain ou en audit.

Ouvrir la fiche pratique