大模型中的token究竟是什么?一文带你读懂
avatar
AIFUC
巅峰
START
这几年,大模型彻底火出圈了,从 ChatGPT 爆火全球,到国内 “百模大战”,各种大模型如雨后春笋般涌现,已然成为当下最热门的话题之一。不管是科技爱好者、从业者,还是普通大众,都在热议大模型的强大与神奇。
在接触大模型相关知识时,你大概率会频繁碰到一个词 ——token。不管是阅读技术文档、观看科普视频,还是参与行业讨论,token 总会时不时冒出来刷一波 “存在感”。它就像是大模型世界里的神秘密码,似乎掌握了它,就能揭开大模型运行原理的一角。可它究竟是什么意思?又在大模型中扮演着怎样关键的角色呢?今天,咱们就来好好唠唠这个 token,把它了解个透彻。
 
token 究竟是什么?
 
在大模型的语境里,token 是指文本数据在被模型处理之前或过程中被分割成的最小单元。这就好比把一篇文章拆分成一个个 “零件”,模型逐个处理这些 “零件”,进而理解整篇文章的含义。不过,这里的 token 和我们日常理解的词义有些不同,日常生活中 token 可能是 “象征、标志” 之类的意思,像 “入场券是参加活动的 token”;但在大模型领域,它有着非常明确且专业的指向,专指文本处理时的最小构成元素。
 
token 的形式多种多样,它可以是一个单词,像 “apple”“book”;也可以是单个的字母、数字,比如 “a”“9”;标点符号同样能作为 token,像 “,”“。”“!” 等。甚至在一些情况下,一个汉字、一个日语假名等也能成为 token。举个例子,对于句子 “I like apples.”,按照常见的分词方式,就会被拆分成 “I”“like”“apples”“.” 这几个 token;再看中文句子 “我爱北京天安门”,可能会被划分成 “我”“爱”“北京”“天安门” 这些 token,当然,不同的分词工具和策略下,划分结果或许会稍有差异。
 
在中英文文本里,token 和字符、汉字的换算关系并不固定。一般来说,对于英文文本,1 个 token 通常对应 3 至 4 个字母,像 “hello” 大概率会被当作 1 个 token,但有时像 “hamburger” 根据不同模型的分词策略,可能会被分解为 “ham”“bur”“ger”,共计 3 个 token 。而在中文这边,情况更复杂些,不同模型有不同的设定,有的模型 1token 等于 1 个汉字,有的模型 1token 约等于 1.5 个汉字,像腾讯的某些模型 1token≈1.8 个汉字。之所以有这样的差别,是因为中文表意丰富,一个汉字往往有多种含义,组合起来更是千变万化,模型处理时需要更精细的划分;英文单词虽有词形变化,但总体结构相对规整,按字母组合划分 token 相对简单直接,所以中英文在 token 化时呈现出不同的特点。
 
token 在大模型中的关键作用
 
当我们向大模型输入一段文本,比如在 ChatGPT 的对话框里敲入 “请给我介绍一下人工智能的发展历程”,模型并不会直接处理这段原始文本。首先要做的,就是借助分词工具或算法,把文本拆分成一个个 token。就这个例子而言,可能会被拆分成 “请”“给”“我”“介绍”“一下”“人工智能”“的”“发展”“历程” 这些 token。模型接收这些 token 后,就能更高效地对文本进行理解、分析,为后续生成合适的回答做准备。这一步就像是把食材切成合适的小块,方便厨师下锅烹饪,要是食材(文本)不处理直接下锅,那肯定会乱成一锅粥,模型也没法准确抓取信息,自然给不出靠谱的回答。
 
模型经过复杂的运算、推理,生成的其实也是一串 token 序列,这些 token 对于模型来说是它的 “语言”,但我们人类可看不懂。这时候,就需要一个 “翻译” 过程,把 token 序列再转换回我们熟悉的文本。继续上面的例子,模型内部生成诸如 “人工智能自 20 世纪 50 年代诞生以来……” 这样以 token 形式存在的初步回答,然后通过解码等操作,将这些 token 变成通顺的文本 “人工智能自 20 世纪 50 年代诞生以来,经历了从简单算法到如今深度学习驱动的巨大跨越,在图像识别、自然语言处理等多领域广泛应用,不断改变着人类生活与工作方式。” 呈现给我们。可以说,token 在输出环节就是一个 “翻译官”,把模型的 “心声” 准确传达给人类,让沟通得以顺畅完成。
 
token 与模型上下文的关联
 
模型上下文(也常被称为上下文窗口),简单来说,就是模型在处理文本时能够 “记住” 的文本范围。它本质上是一个长度限制,规定了模型一次性能处理的最大 token 数量,既包括输入的文本转化成的 token,也涵盖模型生成输出时的 token。打个比方,这就像是我们阅读文章时的短期记忆容量,我们只能同时兼顾一定篇幅内的内容,模型也是如此,超过这个上下文窗口长度的文本,模型就没法一次性全部处理。像 GPT-4 早期的上下文长度是 4K token,后来拓展到 128K token(GPT-4 Turbo 支持的长度),Claude2 更是将上下文 token 提升至 200K,这些数字就是模型所能处理的 token 额度上限,换算成汉字,200K 的上下文窗口大致能处理约 36 万汉字,意味着模型能在这个范围内对文本信息进行理解、分析与生成。
 
token 数量与模型上下文紧密相连,直接影响模型的性能。当输入文本的 token 数量接近或超出模型上下文窗口长度时,模型就会面临挑战。一方面,计算量会呈指数级增长,像 Transformer 模型中的自注意力机制,上下文变长,计算复杂度会以平方级上升,这对算力是个极大考验,容易导致运行缓慢甚至死机;另一方面,过长的文本序列可能让模型 “顾此失彼”,丢失关键信息,使得生成的回答质量下降,出现逻辑不连贯、信息不准确等问题,就好比让一个人同时记住并处理海量信息,难免会出错。相反,合理控制 token 数量,使其适配模型上下文,模型就能高效运行,给出高质量回复,提升用户交互体验。如今大模型上下文窗口长度不断 “内卷”,也是因为大家都意识到更长的上下文能处理更多信息,避免信息截断,提升模型整体表现,但也需注意避免过度追求长度导致的过拟合等负面效应,找到性能与资源消耗的平衡点。
 
token 的商业价值
 
在商业领域,token 可是大模型服务收费的 “硬通货”。目前,绝大多数通用大模型服务商都采用按 token 使用量计费的模式。这意味着,无论是企业还是个人开发者,只要调用大模型的 API 进行文本生成、问答等操作,使用的 token 数量越多,费用就越高。不同模型的收费标准差异较大,据不完全统计,国内外大模型每 1000 tokens 收费在 0.008 元 - 0.876 元人民币不等。像 OpenAI 的 GPT-4-32k context 输出服务收费较贵,每 1000 token 收费 0.12 美元,折合成人民币约为 0.876 元;而国内一些模型如通义千问的 Qwen1.5-7b-chat 模型,输入价格是每千个 token 0.001 元人民币,输出为每千个 token 0.002 元人民币。这种计费方式促使开发者和使用者更加精细地优化输入文本,在满足需求的前提下尽量减少 token 消耗,以控制成本。
 
token 在 AI 项目的经济生态里正悄然变身一种 “新型货币”。随着 AI 产业迅猛发展,一些前沿的 AI 项目开始尝试将 token 代币化。比如在某些去中心化的 AI 平台上,开发者会发行基于区块链的 token,这些 token 可用于购买模型的使用权、获取数据资源,甚至作为对优质数据贡献者、模型优化者的奖励。投资者也能通过持有这些 token,参与到 AI 项目的成长红利分配中。当一个 AI 模型被广泛看好,其对应的 token 可能会在数字资产市场上价格飙升,反之则可能下跌。这一趋势为 AI 产业带来了全新的融资、激励与交易模式,不过目前仍处于探索阶段,面临着监管合规、市场波动等诸多挑战,但其潜力已然引发行业内外的广泛关注,有望重塑 AI 产业的商业格局。
 
总之,token 在大模型的世界里身兼数职,它是文本处理的最小单元,让模型得以 “读懂” 人类输入的文本;是人机交互中的 “翻译官”,帮助模型理解人类语言,又把模型的输出转换为人类能理解的文本;还是大模型商业化进程中的计量计费单位,决定着使用者的成本开销。随着大模型技术不断演进,token 的内涵与应用场景也将持续拓展,深入理解 token,无疑能帮我们更好地驾驭大模型,解锁更多人工智能带来的惊喜与便利,一同期待它在未来创造更多可能吧!
 
 
THE END
支持一下吧
点赞
评论 (0)
请先登录