什么是词元(Token)?

简单来说,词元(Token) 是大型语言模型(比如ChatGPT、DeepSeek)处理和生成文本时的最小基本单位

你可以把它理解为:模型在“读”和“写”文字时,不是像人一样看一个一个的完整汉字或单词,而是看自己定义好的一些“碎片”。这些碎片就是词元。

为了让您更清楚,可以从这几个角度理解

一、什么是词元?

1. 词元不一定是完整的单词或汉字

– 对于英文:一个单词可能被拆成几个部分。比如 `unhappiness` 可能被拆成 `[“un”, “happiness”]` 或更细的碎片。

– 对于中文:一个汉字可能就是一个词元,但也可能根据模型的不同,一个词或常见短语被当作一个词元。

– 常见标点符号、空格也各自是词元。

2. 模型通过词元来“思考”

– 当你输入一句话,模型先把它拆成一个个词元。

– 然后模型预测下一个词元是什么(比如,你输入“今天天气”,模型可能预测下一个词元是“很”)。

– 不断重复预测,直到生成完整回答。

3. 计费和上下文长度通常按词元数计算

– 很多AI服务的费用,是根据输入和输出的总词元数来算的。

– 模型的“记忆力”(上下文窗口,比如128K)也是用词元数量来衡量的,而不是字数。

举个例子:

句子:`DeepSeek 是一个好用的 AI 助手。`

假设一种简化的分词方式,它可能被拆成这些词元:[“DeepSeek”, ” 是”, “一个”, “好”, “用的”, ” AI”, ” 助手”, “。”]

注意:空格有时会合并到后面的词元中。不同模型的分词方式不同。

二、词元 vs 字符/单词:

– 英文:1个词元 ≈ 0.75个单词(即4个字符约等于1个词元)
– 中文:1个词元 ≈ 0.6个汉字(平均1.5-2个字符对应1个词元,具体看分词表)

为什么要有词元?

– 效率:直接处理几万个常用字/词效率低,把常见片段固定为词元可以加快速度。
– 生僻词处理:遇到没见过的词,模型可以通过更小的词元碎片组合来理解。

一个帮助记忆的比喻:

如果你把模型想象成一个搭积木的小孩,那么词元就是一块块标准尺寸的积木。模型不能用任意形状的材料,只能用这些固定形状的积木来拼出句子。不同的分词方法就像是不同形状的积木套装。

2026 年 3 月,全国科技名词委已正式将 Token 标准中文定为 词元。

Peter

📁10年以上搜索营销经验,对AI搜索生成营销(GEO)有独特见解!🌍个人主页

相关推荐

Deepseek快速模式与专家模式有何不同?

DeepSeek 网页端近期上线的“快速模式”和“专家模式”,是其在产品上首次引入的模式分层设计,旨在按需分配算力资源。简单来说,快速模式主打效率,适合日常任 …

2026 Bing站长工具新功能AI Performance

2026年2月,Bing站长工具新功能AI Performance。Bing 站长工具中的 AI Performance报告 通过突出显示哪些页面被引用、可见度趋势如何随时间变化,以及与您的 …

Cherry studio客户端下载网站

什么是Cherry Studio Cherry Studio 是一款免费的跨平台桌面 AI 客户端,主要用于集成和管理多个 AI 模型(如 OpenAI、Gemini、本地部署模型),让你在一个 …

用户使用AI应用,输入查询的规律有哪些

用户在使用 Gemini(以及类似的生成式 AI)时,其输入查询(Prompt/提示词)确实存在明显的规律。这些规律通常反映了用户从“简单对话”向“高效指令”进化的过 …