大模型中的token究竟是什么？一文带你读懂

AIFUC

巅峰

START

这几年，大模型彻底火出圈了，从 ChatGPT 爆火全球，到国内 “百模大战”，各种大模型如雨后春笋般涌现，已然成为当下最热门的话题之一。不管是科技爱好者、从业者，还是普通大众，都在热议大模型的强大与神奇。

在接触大模型相关知识时，你大概率会频繁碰到一个词 ——token。不管是阅读技术文档、观看科普视频，还是参与行业讨论，token 总会时不时冒出来刷一波 “存在感”。它就像是大模型世界里的神秘密码，似乎掌握了它，就能揭开大模型运行原理的一角。可它究竟是什么意思？又在大模型中扮演着怎样关键的角色呢？今天，咱们就来好好唠唠这个 token，把它了解个透彻。

token 究竟是什么？

在大模型的语境里，token 是指文本数据在被模型处理之前或过程中被分割成的最小单元。这就好比把一篇文章拆分成一个个 “零件”，模型逐个处理这些 “零件”，进而理解整篇文章的含义。不过，这里的 token 和我们日常理解的词义有些不同，日常生活中 token 可能是 “象征、标志” 之类的意思，像 “入场券是参加活动的 token”；但在大模型领域，它有着非常明确且专业的指向，专指文本处理时的最小构成元素。

token 的形式多种多样，它可以是一个单词，像 “apple”“book”；也可以是单个的字母、数字，比如 “a”“9”；标点符号同样能作为 token，像 “,”“。”“!” 等。甚至在一些情况下，一个汉字、一个日语假名等也能成为 token。举个例子，对于句子 “I like apples.”，按照常见的分词方式，就会被拆分成 “I”“like”“apples”“.” 这几个 token；再看中文句子 “我爱北京天安门”，可能会被划分成 “我”“爱”“北京”“天安门” 这些 token，当然，不同的分词工具和策略下，划分结果或许会稍有差异。

在中英文文本里，token 和字符、汉字的换算关系并不固定。一般来说，对于英文文本，1 个 token 通常对应 3 至 4 个字母，像 “hello” 大概率会被当作 1 个 token，但有时像 “hamburger” 根据不同模型的分词策略，可能会被分解为 “ham”“bur”“ger”，共计 3 个 token 。而在中文这边，情况更复杂些，不同模型有不同的设定，有的模型 1token 等于 1 个汉字，有的模型 1token 约等于 1.5 个汉字，像腾讯的某些模型 1token≈1.8 个汉字。之所以有这样的差别，是因为中文表意丰富，一个汉字往往有多种含义，组合起来更是千变万化，模型处理时需要更精细的划分；英文单词虽有词形变化，但总体结构相对规整，按字母组合划分 token 相对简单直接，所以中英文在 token 化时呈现出不同的特点。

token 在大模型中的关键作用

当我们向大模型输入一段文本，比如在 ChatGPT 的对话框里敲入 “请给我介绍一下人工智能的发展历程”，模型并不会直接处理这段原始文本。首先要做的，就是借助分词工具或算法，把文本拆分成一个个 token。就这个例子而言，可能会被拆分成 “请”“给”“我”“介绍”“一下”“人工智能”“的”“发展”“历程” 这些 token。模型接收这些 token 后，就能更高效地对文本进行理解、分析，为后续生成合适的回答做准备。这一步就像是把食材切成合适的小块，方便厨师下锅烹饪，要是食材（文本）不处理直接下锅，那肯定会乱成一锅粥，模型也没法准确抓取信息，自然给不出靠谱的回答。

模型经过复杂的运算、推理，生成的其实也是一串 token 序列，这些 token 对于模型来说是它的 “语言”，但我们人类可看不懂。这时候，就需要一个 “翻译” 过程，把 token 序列再转换回我们熟悉的文本。继续上面的例子，模型内部生成诸如 “人工智能自 20 世纪 50 年代诞生以来……” 这样以 token 形式存在的初步回答，然后通过解码等操作，将这些 token 变成通顺的文本 “人工智能自 20 世纪 50 年代诞生以来，经历了从简单算法到如今深度学习驱动的巨大跨越，在图像识别、自然语言处理等多领域广泛应用，不断改变着人类生活与工作方式。” 呈现给我们。可以说，token 在输出环节就是一个 “翻译官”，把模型的 “心声” 准确传达给人类，让沟通得以顺畅完成。

token 与模型上下文的关联

模型上下文（也常被称为上下文窗口），简单来说，就是模型在处理文本时能够 “记住” 的文本范围。它本质上是一个长度限制，规定了模型一次性能处理的最大 token 数量，既包括输入的文本转化成的 token，也涵盖模型生成输出时的 token。打个比方，这就像是我们阅读文章时的短期记忆容量，我们只能同时兼顾一定篇幅内的内容，模型也是如此，超过这个上下文窗口长度的文本，模型就没法一次性全部处理。像 GPT-4 早期的上下文长度是 4K token，后来拓展到 128K token（GPT-4 Turbo 支持的长度），Claude2 更是将上下文 token 提升至 200K，这些数字就是模型所能处理的 token 额度上限，换算成汉字，200K 的上下文窗口大致能处理约 36 万汉字，意味着模型能在这个范围内对文本信息进行理解、分析与生成。

token 数量与模型上下文紧密相连，直接影响模型的性能。当输入文本的 token 数量接近或超出模型上下文窗口长度时，模型就会面临挑战。一方面，计算量会呈指数级增长，像 Transformer 模型中的自注意力机制，上下文变长，计算复杂度会以平方级上升，这对算力是个极大考验，容易导致运行缓慢甚至死机；另一方面，过长的文本序列可能让模型 “顾此失彼”，丢失关键信息，使得生成的回答质量下降，出现逻辑不连贯、信息不准确等问题，就好比让一个人同时记住并处理海量信息，难免会出错。相反，合理控制 token 数量，使其适配模型上下文，模型就能高效运行，给出高质量回复，提升用户交互体验。如今大模型上下文窗口长度不断 “内卷”，也是因为大家都意识到更长的上下文能处理更多信息，避免信息截断，提升模型整体表现，但也需注意避免过度追求长度导致的过拟合等负面效应，找到性能与资源消耗的平衡点。

token 的商业价值

在商业领域，token 可是大模型服务收费的 “硬通货”。目前，绝大多数通用大模型服务商都采用按 token 使用量计费的模式。这意味着，无论是企业还是个人开发者，只要调用大模型的 API 进行文本生成、问答等操作，使用的 token 数量越多，费用就越高。不同模型的收费标准差异较大，据不完全统计，国内外大模型每 1000 tokens 收费在 0.008 元 - 0.876 元人民币不等。像 OpenAI 的 GPT-4-32k context 输出服务收费较贵，每 1000 token 收费 0.12 美元，折合成人民币约为 0.876 元；而国内一些模型如通义千问的 Qwen1.5-7b-chat 模型，输入价格是每千个 token 0.001 元人民币，输出为每千个 token 0.002 元人民币。这种计费方式促使开发者和使用者更加精细地优化输入文本，在满足需求的前提下尽量减少 token 消耗，以控制成本。

token 在 AI 项目的经济生态里正悄然变身一种 “新型货币”。随着 AI 产业迅猛发展，一些前沿的 AI 项目开始尝试将 token 代币化。比如在某些去中心化的 AI 平台上，开发者会发行基于区块链的 token，这些 token 可用于购买模型的使用权、获取数据资源，甚至作为对优质数据贡献者、模型优化者的奖励。投资者也能通过持有这些 token，参与到 AI 项目的成长红利分配中。当一个 AI 模型被广泛看好，其对应的 token 可能会在数字资产市场上价格飙升，反之则可能下跌。这一趋势为 AI 产业带来了全新的融资、激励与交易模式，不过目前仍处于探索阶段，面临着监管合规、市场波动等诸多挑战，但其潜力已然引发行业内外的广泛关注，有望重塑 AI 产业的商业格局。

总之，token 在大模型的世界里身兼数职，它是文本处理的最小单元，让模型得以 “读懂” 人类输入的文本；是人机交互中的 “翻译官”，帮助模型理解人类语言，又把模型的输出转换为人类能理解的文本；还是大模型商业化进程中的计量计费单位，决定着使用者的成本开销。随着大模型技术不断演进，token 的内涵与应用场景也将持续拓展，深入理解 token，无疑能帮我们更好地驾驭大模型，解锁更多人工智能带来的惊喜与便利，一同期待它在未来创造更多可能吧！

THE END

支持一下吧

请先登录