단어 목록의 과학: "개"가 "성운"보다 나은 이유

모든 단어가 똑같이 만들어진 것은 아닙니다

아이가 전화 속 상대방이 정말 할머니인지 확인해야 할 때 — AI 음성 복제물이 아닌 — 안전 단어가 즉시 떠올라야 합니다. 망설임도, "빨간색이었나 주홍색이었나?" 하는 고민도, 잘 기억나지 않는 단어로 버벅거림도 없어야 합니다. 효과적인 단어와 실패하는 단어의 차이는 수십 년에 걸친 인지 과학 연구에서 비롯됩니다.

우리는 심리언어학, 기억 연구, 보안 연구의 근거에 기반하여 단어 목록을 처음부터 다시 구축했습니다. 과학이 무엇을 말하는지, 그리고 그것이 생성기의 모든 단어를 어떻게 형성했는지 설명합니다.

가장 중요한 두 집단

안전 단어는 모든 사람에게 효과적이어야 하지만, 두 집단이 가장 높은 위험에 처해 있습니다: 음성 복제 사기의 주요 대상인 고령자(65세 이상)와 픽업 확인 코드가 필요한 어린이(6~12세)입니다. 이 집단들은 특정 단어 특성을 요구하는 특수한 인지 프로필을 가지고 있습니다.

고령자는 설단 현상(TOT)을 더 자주 경험합니다 — 단어를 알지만 떠올리지 못하는 상태입니다. 어린 시절 배운 단어는 이 실패에 강합니다.
어린이는 어휘가 작습니다. "코발트"나 "성운" 같은 단어가 아이들의 어휘 사전에 아예 없을 수 있습니다.
두 집단 모두 작업 기억 용량이 낮아, 길거나 복잡한 단어를 유지하고 반복하기 어렵습니다.
전화 기반 확인은 소음, 시간 압박, 스트레스를 더하며 — 이 모든 것이 어려운 단어의 인출을 저하시킵니다.

기준 1: 구체성 — 그것을 머릿속에 그릴 수 있는가?

누군가가 단어를 기억할지를 가장 강력하게 예측하는 지표는 구체성 — 얼마나 쉽게 머릿속 이미지를 떠올리게 하는가입니다. "개"는 즉시 머릿속 그림을 만들어냅니다. "양자"는 그렇지 않습니다. 이것은 이중 부호화 이론(Paivio, 1971)으로 설명됩니다: 구체적인 단어는 언어적 기억 시스템과 시각적 기억 시스템 모두에 저장되어, 뇌에 하나가 아닌 두 가지 인출 경로를 제공합니다.

2배

의 기억 우위 — 구체적인 단어는 자유 회상 실험에서 추상적인 단어보다 약 2배 더 잘 기억됩니다

Brysbaert 연구팀(2014)은 40,000개 영어 단어의 구체성을 1~5점 척도로 평가했습니다. 우리는 4.0점 이상의 단어를 우선시했습니다. 목록에 포함된 모든 동물, 음식, 생활용품은 생생한 정신적 이미지를 만들어냅니다. "양자", "스펙트럼", "디지털", "우주적" 같은 추상적 용어는 제거했습니다 — 이들은 구체성 평가에서 3.0 미만입니다.

기준 2: 습득 연령 — 일찍 배울수록 더 단단히 남는다

일찍 배운 단어일수록 더 깊이 저장되며 나이에 따른 인출 실패에 강합니다. 이것을 습득 연령(AoA) 효과라 하며, 심리언어학에서 가장 견고한 발견 중 하나입니다. Kuperman 연구팀(2012)이 30,000개 단어의 AoA 등급을 수집했습니다.

고령자에게 이것은 매우 중요합니다. 사기 전화로 스트레스 호르몬이 뇌에 넘칠 때, 일찍 배운 단어는 살아남지만 나중에 배운 단어는 접근 불가능해집니다. 78세 노인은 "개"나 "사과"를 항상 떠올릴 수 있지만, "만돌린"이나 "파빌리온"은 압박 속에서 사라질 수 있습니다.

우리는 습득 연령 등급이 6.0 이하인 단어를 우선시했습니다 — 즉, 일반적으로 6세까지 배우는 단어입니다. 이것은 어린이와 고령자 모두가 공유하는 깊이 뿌리박힌 공통 어휘를 보장합니다.

기준 3: 생물체 우위 효과

살아있는 것은 무생물보다 더 잘 기억됩니다. 여러 연구에서 생물 단어(동물, 사람)는 빈도, 구체성, 심상성이 동일한 조건에서도 무생물 단어를 일관되게 능가했습니다. Aka, Phan, Kahana(2021)가 대규모 기억 실험에서 이 "생물체 우위 효과"를 입증했습니다.

105개

의 동물 단어가 명사 목록에 포함 — 생물 단어가 가장 기억에 남기 때문에 최대 범주입니다

이것이 우리 명사 목록이 동물로 시작하는 이유입니다: dog, cat, horse, bear, penguin, dolphin, eagle, turtle. 이것들은 단지 친숙한 것만이 아닙니다 — 깊은 진화적 인식 시스템을 활성화합니다. 뇌는 살아있는 것을 주목하고 기억하도록 진화했으며, 이 우위는 스트레스 상황에서도 유지됩니다.

기준 4: 전화 안전성 — 소리 내어 말해보기

종이 위에서는 괜찮아 보이는 안전 단어가 전화 통화에서는 완전히 실패할 수 있습니다. Miller와 Nicely의 고전적 1955년 연구는 소음 속에서 혼동되는 자음을 매핑했습니다: b/d, m/n, p/t, f/s. NATO 음성 알파벳 설계에 대한 현대 연구도 특정 소리 패턴이 열화된 음성 채널에서 본질적으로 더 명확하다는 것을 확인합니다.

동음이의어: "cymbal"은 "symbol"처럼, "palette"는 "palate"처럼, "kernel"은 "colonel"처럼 들립니다
가변 발음: "depot"이나 "pecan"처럼 지역마다 다르게 발음하는 단어
들어서 철자를 맞추기 어려운 단어: "focaccia", "brioche", "lychee" 같은 외래어
최소 대립쌍: "knotty"는 전화에서 "naughty"와 너무 쉽게 혼동됩니다

기준 5: 유의어 함정 배제

기억 인출 오류에 대한 인지 연구에 따르면, 유사한 단어들은 서로 간섭합니다. 안전 단어가 "진홍"을 사용하는데 목록에 "주홍", "밤색", "루비"도 있다면, 뇌가 압박 속에서 잘못된 유의어를 떠올릴 수 있습니다. 이것을 "인출 대체" — 맞는 개념, 틀린 단어 — 라고 합니다.

우리는 유의어 군집을 체계적으로 중복 제거했습니다. "짙은 빨강" 네 단어에서 하나만 남겼습니다. "용감한" 세 유의어에서 하나만 남겼습니다. "달리기" 네 동사에서 하나만 남겼습니다. 규칙: 개념당 최대 한 단어.

기준 6: 기본 수준 범주

인지 심리학자 Eleanor Rosch는 1976년에 인간이 자연스럽게 "기본 수준" 범주로 사고한다는 것을 입증했습니다. 우리는 개를 봅니다 — "포유류"(너무 추상적)가 아니고 "골든 리트리버"(너무 구체적)가 아닙니다. 기본 수준 단어는 가장 빠르게 인식되고, 가장 일찍 학습되며, 문화를 초월하여 가장 자주 사용됩니다.

우리는 범주 특정 단어를 기본 수준 동등어로 교체했습니다. "콘도르"나 "물수리" 대신 "매"와 "독수리" — 기본 수준의 새를 사용합니다. "파스닙"과 "렌틸콩" 대신 "당근"과 "감자"를 사용합니다. 기본 수준 단어는 개념에서 단어로 가는 가장 빠른 경로입니다.

왜 2의 거듭제곱 크기인가?

우리 목록은 정확히 256개의 형용사, 512개의 명사, 128개의 동사를 포함합니다. 이것은 무작위가 아닙니다 — 기술적 이유로 선택된 2의 거듭제곱입니다. 모바일 앱이 시간 기반 코드(TOTP)에서 단어를 도출할 때, 암호학적 해시에서 바이트를 추출합니다. 임의의 바이트를 2의 거듭제곱이 아닌 수로 나누면, 일부 단어가 약간 더 자주 선택됩니다(모듈러 편향). 2의 거듭제곱 크기는 이 편향을 완전히 제거합니다.

1,180만

가지 가능한 표준 안전 단어 조합 (256 x 512 x 90) — 약 23.5비트의 엔트로피

제거한 것 — 그리고 그 이유

과학/우주 관련(18개 단어): "펄서", "퀘이사", "양자", "동위원소", "광자" — 어린이와 고령자 모두에게 접근이 어렵습니다. 구체적인 우주 단어 9개("로켓", "혜성", "일식")는 유지했습니다.
고어적 사물(19개 단어): "큰 술잔", "성벽", "홀", "물레" — 대부분의 사람들이 실제로 본 적 없는 중세 물건입니다.
외래 특수 식품(10개 단어): "포카치아", "브리오슈", "리치" — 들어서 철자를 맞추기 어렵고, 많은 사람에게 낯설습니다.
이국적 동물(12개 단어): "콘도르", "긴팔원숭이", "물수리", "일각고래" — "개", "고양이", "말" 같은 보편적으로 알려진 동물로 대체했습니다.
유의어 군집(30개 이상): 세 목록 전체에서 개념당 하나의 단어로 줄였습니다.

추가한 것 — 빠져있던 기본 단어들

감사 결과에서 가장 놀라운 발견: 영어에서 가장 기본적이고 보편적으로 알려진 단어들이 목록에 빠져있었습니다. "빨강"이나 "파랑"이 없었습니다. "개"나 "고양이"가 없었습니다. "사과"나 "바나나"가 없었습니다. "숟가락"이나 "의자"가 없었습니다. 모든 사람이 알고, 모든 아이가 가장 먼저 배우고, 모든 고령자가 손쉽게 떠올릴 수 있는 단어들이 — 목록에 없었던 것입니다.

기본 색상: 빨강, 파랑, 초록, 노랑, 주황, 분홍, 흰색, 검정 — 모든 유아가 아는 색상들
흔한 동물: 개, 고양이, 말, 곰, 개구리, 오리, 올빼미, 고래, 원숭이 — 보편적으로 인식됨
일상 음식: 사과, 바나나, 빵, 치즈, 피자, 쿠키 — 모든 주방에 있는 것들
생활용품: 숟가락, 포크, 시계, 의자, 컵, 그릇, 문, 열쇠 — 매일 만지는 물건들
신체 동작: 달리기, 걷기, 먹기, 자기, 웃기 — 모든 사람이 하는 행위들

10가지 검증 테스트

목록의 모든 단어는 10가지 검증 체크리스트를 통과했습니다. 이것은 점수제가 아니라 합격/불합격 관문입니다. 하나라도 실패하면 해당 단어는 제거됩니다.

7세 아이가 그것을 머릿속에 그릴 수 있는가?
6세 아이가 이 단어를 알고 있을까?
흔한 일상 단어인가?
소리 내어 말해보라 — 전화 통화에서 혼동 위험이 있는가?
한 번 듣고 철자를 쓸 수 있는가?
이미 목록에 유의어가 없는가?
이미 목록에 동음이의어가 없는가?
특정 문화에만 한정되지 않는가?
긍정적이거나 중립적인가 — 무섭거나, 폭력적이거나, 부정적이지 않은가?
1~3음절, 선호되는 3~8자인가?

기반이 된 연구

우리의 단어 선택은 여러 분야의 수렴된 근거를 기반으로 합니다. 이것들은 편향적으로 선택된 연구가 아니라, 인지 심리학, 보안 연구, 응용 언어학에서 수십 년간 재현된 결과를 대표합니다.

Brysbaert, Warriner & Kuperman (2014) — 40,000개 영어 단어의 구체성 평가. Behavior Research Methods에 발표.
Kuperman, Stadthagen-Gonzalez & Brysbaert (2012) — 30,000개 영어 단어의 습득 연령 기준.
Aka, Phan & Kahana (2021) — 생물체 우위 효과에 초점을 맞춘 단어 기억 가능성 예측.
Rosch (1976) — 기본 수준 범주: "개"가 "비글"이나 "동물"보다 빠르게 인식되는 이유.
SUBTLEX-US — 미국 영화 자막 5,100만 단어에서 도출된 단어 빈도 규범.
EFF Diceware (2016) — 안전한 패스프레이즈를 위한 전자프론티어재단의 개선된 단어 목록 기준.
Miller & Nicely (1955) — 소음 조건에서의 자음 혼동 패턴, 전화 안전 단어 설계의 기초.
Shay et al. (2012, CMU SOUPS) — 장면 구성을 통한 패스프레이즈 기억 가능성.
NCMEC KidSmartz — 미국 실종 및 착취 아동을 위한 국립센터의 가족 암호 단어 지침.

우리의 단어 목록은 모바일 앱의 시간 기반 코드 시스템을 위해 버전 관리되고 동결되어 있습니다. 오늘 생성된 안전 단어는 오프라인에서도 몇 년 후에도 검증 가능합니다. 단어 선택 뒤의 과학이 세대를 초월하여 기억에 남을 것을 보장합니다.

단어 목록의 과학: "개"가 "성운"보다 나은 이유

모든 단어가 똑같이 만들어진 것은 아닙니다

가장 중요한 두 집단

기준 1: 구체성 — 그것을 머릿속에 그릴 수 있는가?

기준 2: 습득 연령 — 일찍 배울수록 더 단단히 남는다

기준 3: 생물체 우위 효과

기준 4: 전화 안전성 — 소리 내어 말해보기

기준 5: 유의어 함정 배제

기준 6: 기본 수준 범주

왜 2의 거듭제곱 크기인가?

제거한 것 — 그리고 그 이유

추가한 것 — 빠져있던 기본 단어들

10가지 검증 테스트

기반이 된 연구

관련 기사

딥페이크란 무엇이며, 왜 우리 가족이 알아야 할까요?

실제 사례: AI 음성 사기로 수천만 원을 잃은 가족들

신뢰하는 사람들을 보호할 준비가 되셨나요?