简单来说,词元(Token) 是大型语言模型(比如ChatGPT、DeepSeek)处理和生成文本时的最小基本单位。
你可以把它理解为:模型在“读”和“写”文字时,不是像人一样看一个一个的完整汉字或单词,而是看自己定义好的一些“碎片”。这些碎片就是词元。
为了让您更清楚,可以从这几个角度理解
一、什么是词元?
1. 词元不一定是完整的单词或汉字
– 对于英文:一个单词可能被拆成几个部分。比如 `unhappiness` 可能被拆成 `[“un”, “happiness”]` 或更细的碎片。
– 对于中文:一个汉字可能就是一个词元,但也可能根据模型的不同,一个词或常见短语被当作一个词元。
– 常见标点符号、空格也各自是词元。
2. 模型通过词元来“思考”
– 当你输入一句话,模型先把它拆成一个个词元。
– 然后模型预测下一个词元是什么(比如,你输入“今天天气”,模型可能预测下一个词元是“很”)。
– 不断重复预测,直到生成完整回答。
3. 计费和上下文长度通常按词元数计算
– 很多AI服务的费用,是根据输入和输出的总词元数来算的。
– 模型的“记忆力”(上下文窗口,比如128K)也是用词元数量来衡量的,而不是字数。
举个例子:
句子:`DeepSeek 是一个好用的 AI 助手。`
假设一种简化的分词方式,它可能被拆成这些词元:[“DeepSeek”, ” 是”, “一个”, “好”, “用的”, ” AI”, ” 助手”, “。”]
注意:空格有时会合并到后面的词元中。不同模型的分词方式不同。
二、词元 vs 字符/单词:
– 英文:1个词元 ≈ 0.75个单词(即4个字符约等于1个词元)
– 中文:1个词元 ≈ 0.6个汉字(平均1.5-2个字符对应1个词元,具体看分词表)
为什么要有词元?
– 效率:直接处理几万个常用字/词效率低,把常见片段固定为词元可以加快速度。
– 生僻词处理:遇到没见过的词,模型可以通过更小的词元碎片组合来理解。
一个帮助记忆的比喻:
如果你把模型想象成一个搭积木的小孩,那么词元就是一块块标准尺寸的积木。模型不能用任意形状的材料,只能用这些固定形状的积木来拼出句子。不同的分词方法就像是不同形状的积木套装。
2026 年 3 月,全国科技名词委已正式将 Token 标准中文定为 词元。

