La science derrière nos listes de mots : pourquoi « chien » bat « nébuleuse »

Tous les mots ne se valent pas

Quand votre enfant doit vérifier que c'est vraiment mamie au téléphone — et pas un clone vocal par IA — le mot de passe doit venir instantanément. Pas d'hésitation, pas de « c'était cramoisi ou écarlate ? », pas de tâtonnement avec un mot dont on ne se souvient pas bien. La différence entre un mot qui fonctionne et un mot qui échoue repose sur des décennies de recherche en sciences cognitives.

Nous avons reconstruit nos listes de mots de zéro en nous appuyant sur des preuves issues de la psycholinguistique, de la recherche sur la mémoire et des études de sécurité. Voici ce que dit la science — et comment elle a façonné chaque mot de notre générateur.

Les deux groupes les plus concernés

Les mots de passe doivent fonctionner pour tout le monde, mais deux groupes sont les plus exposés : les personnes âgées (65 ans et plus), cibles principales des arnaques au clonage vocal, et les enfants (6–12 ans), qui ont besoin de codes de vérification pour les récupérations. Ces groupes ont des profils cognitifs spécifiques qui exigent des propriétés de mots spécifiques.

Les personnes âgées connaissent plus fréquemment des états de « mot sur le bout de la langue » — elles connaissent le mot mais n'arrivent pas à le retrouver. Les mots appris tôt dans la vie résistent à ces échecs.
Les enfants ont un vocabulaire plus restreint. Un mot comme « cobalt » ou « nébuleuse » pourrait ne pas figurer du tout dans leur dictionnaire mental.
Les deux groupes ont une capacité de mémoire de travail plus faible, ce qui rend les mots longs ou complexes plus difficiles à retenir et à répéter.
La vérification par téléphone ajoute du bruit, une pression temporelle et du stress — autant de facteurs qui dégradent le rappel des mots difficiles.

Critère 1 : La concrétude — Pouvez-vous le visualiser ?

Le prédicteur le plus puissant de la mémorisation d'un mot est la concrétude — la facilité avec laquelle il évoque une image mentale. « Chien » crée une image mentale instantanée. « Quantique », non. Cela s'explique par la théorie du double codage (Paivio, 1971) : les mots concrets sont stockés à la fois dans les systèmes de mémoire verbale et visuelle, offrant au cerveau deux voies de récupération au lieu d'une.

2×

avantage de rappel — les mots concrets sont retenus environ deux fois mieux que les mots abstraits dans les expériences de rappel libre

Brysbaert et ses collègues (2014) ont évalué 40 000 mots anglais pour leur concrétude sur une échelle de 1 à 5. Nous avons privilégié les mots avec un score de 4,0 ou plus. Chaque animal, aliment et objet du quotidien dans nos listes crée une image mentale vivace. Nous avons supprimé les termes abstraits comme « quantique », « spectre », « numérique » et « cosmique » — ils obtiennent moins de 3,0 sur les échelles de concrétude.

Critère 2 : L'âge d'acquisition — Plus c'est tôt, plus c'est ancré

Les mots appris tôt dans la vie sont stockés plus profondément et résistent aux difficultés de récupération liées à l'âge. C'est ce qu'on appelle l'effet de l'âge d'acquisition (AoA), l'un des résultats les plus robustes en psycholinguistique. Kuperman et ses collègues (2012) ont recueilli des évaluations d'AoA pour 30 000 mots.

Pour les personnes âgées, c'est crucial. Quand les hormones de stress inondent le cerveau lors d'un appel d'arnaque, les mots appris tôt survivent tandis que les mots appris plus tard deviennent inaccessibles. Une personne de 78 ans peut toujours retrouver « chien » ou « pomme » — mais « mandoline » ou « pavillon » pourraient lui échapper sous la pression.

Nous avons privilégié les mots avec un âge d'acquisition de 6,0 ou moins — c'est-à-dire des mots généralement appris avant l'âge de 6 ans. Cela garantit que les enfants comme les personnes âgées partagent un vocabulaire commun, profondément enraciné.

Critère 3 : L'avantage de l'animicité

Les êtres vivants sont mieux mémorisés que les objets inanimés. À travers de multiples études, les mots animés (animaux, personnes) surpassent systématiquement les mots inanimés en rappel libre, même lorsqu'ils sont appariés en fréquence, concrétude et imageabilité. Aka, Phan et Kahana (2021) ont démontré cet « avantage de l'animicité » dans des expériences de mémoire à grande échelle.

105

mots d'animaux dans notre liste de noms — la catégorie la plus importante, car les mots animés sont les plus mémorables

C'est pourquoi notre liste de noms est dominée par les animaux : chien, chat, cheval, ours, pingouin, dauphin, aigle, tortue. Ce ne sont pas seulement des mots familiers — ils activent un système de reconnaissance évolutif profond. Votre cerveau a évolué pour remarquer et mémoriser les êtres vivants, et cet avantage persiste même sous le stress.

Critère 4 : Sécurité téléphonique — Prononcez-le à voix haute

Un mot de passe qui paraît bien sur le papier peut échouer complètement au téléphone. L'étude classique de Miller et Nicely (1955) a cartographié les consonnes confondues dans le bruit : b/d, m/n, p/t, f/s. Les recherches modernes sur la conception de l'alphabet phonétique OTAN confirment que certains schémas sonores sont intrinsèquement plus clairs sur les canaux audio dégradés.

Homophones : « ver » ressemble à « verre » et « vert », « seau » à « sot » et « sceau »
Prononciation variable : mots que différentes régions prononcent différemment
Difficiles à épeler de mémoire : mots d'origine étrangère comme « focaccia », « brioche » et « litchi »
Paires minimales : « poisson » trop facilement confondu avec « poison » au téléphone

Critère 5 : Pas de pièges à synonymes

La recherche cognitive sur les erreurs de rappel montre que les mots similaires interfèrent entre eux. Si votre mot de passe utilise « cramoisi » mais que votre liste contient aussi « écarlate », « bordeaux » et « rubis », le cerveau pourrait récupérer le mauvais synonyme sous pression. C'est ce qu'on appelle la « substitution de rappel » — le bon concept, le mauvais mot.

Nous avons systématiquement dédupliqué les groupes de synonymes. Parmi quatre mots pour « rouge foncé », nous n'en avons gardé qu'un. Parmi trois synonymes de « courageux », un seul. Parmi quatre verbes de « course », un seul. La règle : maximum un mot par concept.

Critère 6 : Les catégories de niveau de base

La psychologue cognitive Eleanor Rosch a démontré en 1976 que les humains pensent naturellement en « catégories de niveau de base ». Vous voyez un chien — pas un « mammifère » (trop abstrait) ni un « golden retriever » (trop spécifique). Les mots de niveau de base sont reconnus le plus rapidement, appris le plus tôt et utilisés le plus fréquemment à travers les cultures.

Nous avons remplacé les mots spécifiques par des équivalents de niveau de base. Au lieu de « condor » ou « balbuard », notre liste utilise « faucon » et « aigle » — les oiseaux de niveau de base. Au lieu de « panais » et « lentille », nous utilisons « carotte » et « pomme de terre ». Les mots de niveau de base sont la voie la plus rapide du concept au mot.

Pourquoi des tailles de listes en puissance de 2 ?

Nos listes contiennent exactement 256 adjectifs, 512 noms et 128 verbes. Ces chiffres ne sont pas arbitraires — ce sont des puissances de deux, choisies pour une raison technique. Quand notre application mobile dérive des mots d'un code temporel (TOTP), elle extrait des octets d'un hachage cryptographique. Si vous divisez un octet aléatoire par un nombre qui n'est pas une puissance de 2, certains mots deviennent légèrement plus probables que d'autres (biais modulo). Les tailles en puissance de 2 éliminent complètement ce biais.

11,8 millions

de combinaisons standard possibles pour un mot de passe (256 × 512 × 90) — soit environ 23,5 bits d'entropie

Ce que nous avons supprimé — et pourquoi

Groupe science/espace (18 mots) : « pulsar », « quasar », « quantique », « isotope », « photon » — inaccessibles tant aux enfants qu'aux personnes âgées. Nous avons conservé 9 mots concrets liés à l'espace comme « fusée », « comète » et « éclipse ».
Objets archaïques (19 mots) : « flacon », « rempart », « sceptre », « fuseau » — objets médiévaux que la plupart des gens n'ont jamais vus en vrai.
Aliments spécialisés étrangers (10 mots) : « focaccia », « brioche », « litchi » — difficiles à épeler de mémoire, peu familiers pour beaucoup.
Animaux exotiques (12 mots) : « condor », « gibbon », « balbuard », « narval » — remplacés par des animaux universellement connus comme « chien », « chat » et « cheval ».
Groupes de synonymes (plus de 30 mots) : réduits à un seul mot par concept dans les trois listes.

Ce que nous avons ajouté — Les bases manquantes

Le constat le plus surprenant de notre audit : les listes de mots ne contenaient pas les mots les plus fondamentaux, universellement connus de la langue. Pas de « rouge » ni de « bleu ». Pas de « chien » ni de « chat ». Pas de « pomme » ni de « banane ». Pas de « cuillère » ni de « chaise ». Ce sont les mots que tout le monde connaît, que chaque enfant apprend en premier et que chaque personne âgée peut retrouver sans effort — et ils n'étaient pas dans la liste.

Couleurs de base : rouge, bleu, vert, jaune, orange, rose, blanc, noir — les couleurs que chaque bambin connaît
Animaux communs : chien, chat, cheval, ours, grenouille, canard, hibou, baleine, singe — universellement reconnus
Aliments du quotidien : pomme, banane, pain, fromage, pizza, biscuit — présents dans chaque cuisine
Objets ménagers : cuillère, fourchette, horloge, chaise, tasse, bol, porte, clé — des objets qu'on touche chaque jour
Actions corporelles : courir, marcher, manger, dormir, rire — des choses que chaque personne fait

Le test de validation en 10 points

Chaque mot de nos listes a passé un test de validation en 10 points. Ce n'est pas un système de notation — c'est un filtre passe/échoue. Un seul échec élimine le mot.

Un enfant de 7 ans peut-il le visualiser ?
Un enfant de 6 ans connaîtrait-il ce mot ?
Est-ce un mot courant du quotidien ?
Prononcez-le à voix haute — risque de confusion au téléphone ?
Quelqu'un peut-il l'épeler après l'avoir entendu une fois ?
Pas de synonyme déjà présent dans la liste ?
Pas d'homophone déjà présent dans la liste ?
Pas culturellement exclusif ?
Positif ou neutre — ni effrayant, ni violent, ni négatif ?
1 à 3 syllabes, 3 à 8 caractères de préférence ?

Les recherches sur lesquelles nous nous appuyons

Notre sélection de mots s'appuie sur des preuves convergentes de plusieurs domaines. Ce ne sont pas des études choisies sur mesure — elles représentent des décennies de résultats répliqués en psychologie cognitive, en recherche sur la sécurité et en linguistique appliquée.

Brysbaert, Warriner & Kuperman (2014) — Évaluations de concrétude pour 40 000 mots anglais. Publié dans Behavior Research Methods.
Kuperman, Stadthagen-Gonzalez & Brysbaert (2012) — Normes d'âge d'acquisition pour 30 000 mots anglais.
Aka, Phan & Kahana (2021) — Prédire la mémorabilité des mots, en se concentrant sur l'avantage de l'animicité.
Rosch (1976) — Les catégories de niveau de base : pourquoi « chien » est reconnu plus vite que « beagle » ou « animal ».
SUBTLEX-US — Normes de fréquence lexicale dérivées de 51 millions de mots de sous-titres de films américains.
EFF Diceware (2016) — Les critères améliorés de l'Electronic Frontier Foundation pour les listes de mots de phrases de passe sécurisées.
Miller & Nicely (1955) — Schémas de confusion consonantique en conditions bruyantes, fondamentaux pour la conception de mots adaptés au téléphone.
Shay et al. (2012, CMU SOUPS) — Mémorabilité des phrases de passe par construction de scènes.
NCMEC KidSmartz — Directives du Centre national pour les enfants disparus et exploités concernant les mots de code familiaux.

Nos listes de mots sont versionnées et gelées pour le système de code temporel de l'application mobile. Chaque mot de passe généré aujourd'hui sera vérifiable dans des années, même hors ligne. La science derrière le choix des mots garantit qu'ils resteront mémorables à travers les générations.

La science derrière nos listes de mots : pourquoi « chien » bat « nébuleuse »

Tous les mots ne se valent pas

Les deux groupes les plus concernés

Critère 1 : La concrétude — Pouvez-vous le visualiser ?

Critère 2 : L'âge d'acquisition — Plus c'est tôt, plus c'est ancré

Critère 3 : L'avantage de l'animicité

Critère 4 : Sécurité téléphonique — Prononcez-le à voix haute

Critère 5 : Pas de pièges à synonymes

Critère 6 : Les catégories de niveau de base

Pourquoi des tailles de listes en puissance de 2 ?

Ce que nous avons supprimé — et pourquoi

Ce que nous avons ajouté — Les bases manquantes

Le test de validation en 10 points

Les recherches sur lesquelles nous nous appuyons

Articles connexes

Que sont les deepfakes et pourquoi votre famille devrait s'en soucier ?

Histoires vraies : des familles qui ont perdu des milliers d'euros à cause d'arnaques vocales par IA

Prêt à protéger vos proches ?