暗语词表背后的科学：为什么"狗"比"星云"更好

并非所有词语都生而平等

当你的孩子需要验证电话那头是否真的是奶奶——而不是AI语音克隆——暗语必须脱口而出。不能犹豫，不能出现"是深红色还是猩红色？"的困惑，更不能想不起一个费劲的词。一个有效的词和一个无效的词之间的区别，来自于数十年的认知科学研究。

我们基于心理语言学、记忆研究和安全领域的证据，从头重建了我们的词表。以下是科学发现——以及它们如何影响了我们生成器中的每一个词。

最重要的两个群体

暗语需要对所有人有效，但有两个群体面临最高风险：老年人（65岁以上）是语音克隆骗局的主要目标，儿童（6-12岁）需要用于接送验证的密码。这两个群体有特定的认知特征，对词语属性有特定的要求。

老年人更频繁地经历"舌尖现象"(TOT)——他们知道这个词但无法提取。在生命早期学会的词语能抵抗这种提取失败。
儿童的词汇量较小。像"钴蓝"或"星云"这样的词可能根本不在他们的心理词典中。
两个群体的工作记忆容量都较低，使得较长或较复杂的词更难保持和复述。
通过电话验证增加了噪音、时间压力和心理压力——所有这些都会降低对困难词汇的回忆能力。

标准一：具象性——你能想象出来吗？

预测一个人是否能记住一个词的最强因素是具象性——这个词是否容易唤起心理画面。"狗"能立即产生一个心理画面，"量子"则不能。这由双重编码理论（Paivio，1971年）解释：具象词同时储存在语言记忆系统和视觉记忆系统中，给大脑两条提取路径而非一条。

2倍

回忆优势——在自由回忆实验中，具象词的记忆效果大约是抽象词的两倍

Brysbaert等人（2014年）对40,000个英语单词进行了具象性评分，量表为1-5分。我们优先选用评分在4.0及以上的词。我们词表中的每种动物、食物和家居用品都能唤起鲜明的心理画面。我们移除了"量子"、"光谱"、"数字"、"宇宙"等抽象词汇——它们在具象性评分中低于3.0。

标准二：习得年龄——越早学到，越牢固

在生命早期学会的词语储存更深，能抵抗与年龄相关的提取失败。这被称为"习得年龄"（AoA）效应，是心理语言学中最稳健的发现之一。Kuperman等人（2012年）收集了30,000个英语单词的习得年龄数据。

对老年人来说，这一点至关重要。当骗局来电时压力荷尔蒙涌入大脑，早期学习的词语能保持可用，而后来学习的词语则变得无法提取。一个78岁的人总能想起"狗"或"苹果"——但"曼陀林"或"亭子"在压力下可能就想不起来了。

我们优先选用习得年龄评分在6.0及以下的词语——即通常在6岁前学会的词。这确保了儿童和老年人共享一个根深蒂固的基本词汇表。

标准三：生命性优势

有生命的事物比无生命的事物更容易被记住。在多项研究中，表示有生命物体的词（动物、人物）在自由回忆中始终优于表示无生命物体的词，即使在频率、具象性和可想象性方面都匹配的情况下也是如此。Aka、Phan和Kahana（2021年）在大规模记忆实验中证明了这种"生命性优势"。

105

我们名词表中的动物词汇数量——最大的类别，因为表示有生命物体的词最容易被记住

这就是为什么我们的名词表以动物为主：狗、猫、马、熊、企鹅、海豚、鹰、乌龟。它们不仅仅是熟悉的——它们激活了一个深层的进化识别系统。你的大脑在进化中学会了注意和记住有生命的事物，而这种优势即使在压力下也持续存在。

标准四：电话安全性——大声说出来

一个写在纸上看起来没问题的暗语可能在电话里完全失效。Miller和Nicely在1955年的经典研究绘制了在噪音条件下哪些辅音容易混淆：b/d、m/n、p/t、f/s。现代关于北约音标字母设计的研究证实，某些发音模式在信号衰减的音频通道中天然更清晰。

同音词："cymbal"（钹）听起来像"symbol"（符号），"palette"（调色板）像"palate"（上颚），"kernel"（核）像"colonel"（上校）
发音不统一：像"depot"（仓库）和"pecan"（山核桃）这样不同地区发音不同的词
听了难以拼写：外来词如"focaccia"（佛卡夏）、"brioche"（布里欧修）和"lychee"（荔枝）
最小对立组：如"knotty"（棘手的）和"naughty"（淘气的）在电话中太容易混淆

标准五：没有同义词陷阱

关于回忆错误的认知研究表明，相似的词语会互相干扰。如果你的暗语使用了"深红"，但词表里还有"猩红"、"栗色"和"宝石红"，大脑在压力下可能提取出错误的同义词。这叫做"回忆替换"——想到了正确的概念，但说出了错误的词。

我们系统性地对同义词簇进行了去重。从四个"暗红色"词中保留一个，从三个"勇敢"的同义词中保留一个，从四个"跑步"相关的动词中保留一个。规则是：每个概念最多一个词。

标准六：基本层级范畴

认知心理学家Eleanor Rosch在1976年证明，人类自然地以"基本层级"范畴来思考。你看到一条狗——不是一个"哺乳动物"（太抽象）或一只"金毛猎犬"（太具体）。基本层级词汇被识别得最快、最早被学习，并且在各种文化中使用最频繁。

我们将特定类别的词替换为基本层级的词。用"鹰"和"隼"代替"秃鹫"或"鱼鹰"——基本层级的鸟类。用"胡萝卜"和"土豆"代替"欧防风"和"扁豆"。基本层级词汇是从概念到词语的最快路径。

为什么词表大小是2的幂？

我们的词表精确地包含256个形容词、512个名词和128个动词。这不是随意的——它们是2的幂，选择的原因是技术性的。当我们的移动应用从基于时间的代码（TOTP）中推导词语时，它会从加密哈希中提取字节。如果你用一个非2的幂的数字去除一个随机字节，某些词会变得稍微更有可能出现（模偏差）。2的幂大小完全消除了这种偏差。

1180万

种可能的标准暗语组合（256 × 512 × 90）——约23.5比特的熵

我们移除了什么——以及为什么

科学/太空类（18个词）："脉冲星"、"类星体"、"量子"、"同位素"、"光子"——对儿童和老年人都不可理解。我们保留了9个具象的太空词汇如"火箭"、"彗星"和"日食"。
古老物品（19个词）："酒壶"、"城墙"、"权杖"、"纺锤"——大多数人从未在现实生活中见过的中世纪物品。
外来特色食品（10个词）："佛卡夏"、"布里欧修"、"荔枝"——听了难以拼写，许多人不熟悉。
珍稀动物（12个词）："秃鹫"、"长臂猿"、"鱼鹰"、"独角鲸"——替换为全球通用的动物如"狗"、"猫"和"马"。
同义词簇（30多个词）：在三张词表中精简到每个概念只保留一个词。

我们添加了什么——缺失的基础词汇

审核中最令人惊讶的发现是：词表中缺少了英语中最基本、最通用的词汇。没有"红色"或"蓝色"，没有"狗"或"猫"，没有"苹果"或"香蕉"，没有"勺子"或"椅子"。这些是每个人都知道的词，是每个孩子最先学会的词，是每个老人都能毫不费力想起的词——但它们却不在词表里。

基本颜色：红色、蓝色、绿色、黄色、橙色、粉色、白色、黑色——每个幼儿都知道的颜色
常见动物：狗、猫、马、熊、青蛙、鸭子、猫头鹰、鲸鱼、猴子——全球通用的动物
日常食物：苹果、香蕉、面包、奶酪、披萨、饼干——每个厨房里都有的东西
家居用品：勺子、叉子、钟表、椅子、杯子、碗、门、钥匙——每天都会接触的物品
身体动作：跑步、走路、吃饭、睡觉、笑——每个人都会做的事

十项验证测试

我们词表中的每个词都通过了十项验证清单。这不是评分系统——而是通过/淘汰机制。任何一项不通过，这个词就会被移除。

7岁的孩子能想象出来吗？
6岁的孩子认识这个词吗？
它是一个常见的日常用词吗？
大声说出来——在电话中有混淆风险吗？
听一遍就能拼写出来吗？
词表中没有同义词重复？
词表中没有同音词重复？
不是文化专属词汇？
正面或中性——不恐怖、不暴力、不消极？
1-3个音节，3-8个字符优先？

我们所依据的研究

我们的词汇选择基于多个领域的交叉证据。这些不是精心挑选的个别研究——它们代表了认知心理学、安全研究和应用语言学中数十年来被反复验证的发现。

Brysbaert、Warriner与Kuperman（2014年）——40,000个英语单词的具象性评分。发表于《行为研究方法》。
Kuperman、Stadthagen-Gonzalez与Brysbaert（2012年）——30,000个英语单词的习得年龄数据。
Aka、Phan与Kahana（2021年）——预测词语记忆效果，聚焦生命性优势。
Rosch（1976年）——基本层级范畴：为什么"狗"比"比格犬"或"动物"更快被识别。
SUBTLEX-US——基于5100万个美国影视字幕词汇的词频数据。
EFF Diceware（2016年）——电子前线基金会改进的安全密码短语词表标准。
Miller与Nicely（1955年）——噪音条件下辅音混淆模式，电话安全词设计的基础研究。
Shay等人（2012年，CMU SOUPS）——通过场景构建实现密码短语记忆性。
NCMEC KidSmartz——美国失踪与受虐儿童国家中心的家庭暗语指南。

我们的词表已版本化并冻结，用于移动应用的基于时间的代码系统。今天生成的每个暗语在多年后仍可验证，即使离线。词汇选择背后的科学确保它们将跨代保持可记忆性。

暗语词表背后的科学：为什么"狗"比"星云"更好

并非所有词语都生而平等

最重要的两个群体

标准一：具象性——你能想象出来吗？

标准二：习得年龄——越早学到，越牢固

标准三：生命性优势

标准四：电话安全性——大声说出来

标准五：没有同义词陷阱

标准六：基本层级范畴

为什么词表大小是2的幂？

我们移除了什么——以及为什么

我们添加了什么——缺失的基础词汇

十项验证测试

我们所依据的研究

相关文章

什么是深度伪造？为什么你的家人应该关注？

真实案例：因AI语音骗局损失数千美元的家庭

准备好保护您信任的人了吗？