央视网消息
(焦点访谈):最近有个新词儿很火,Token,也就是词元。词元是大模型处理信息的最小单元,简单来说,就像我们说话时的词语、标点,是AI理解和生成语言的基本“积木”,一句话、一段文字都会被拆成若干个词元来计算。和我们通过用电量来衡量工业活力一样,词元调用量也是衡量人工智能发展的全新时代标尺。今年3月,我国日均词元调用量突破140万亿,两年增长超千倍。那么,为什么会出现如此巨量的增长?词元用到了哪些地方?这场词元大爆炸又意味着什么?
最近,Token这个词特别火,Token中文名叫词元。今年3月,国家数据局宣布,我国词元的日均调用量突破140万亿,相比2024年初的1000亿,增长了千倍。同月,中国AI大模型周词元调用量连续三周超越美国。中国已成为全球AI应用活跃度最高的国家之一。就像刷手机要消耗流量一样,越来越多的人每天也在消耗大量词元。
词元调用量大爆炸清晰地表明,人工智能时代已经到来。那么,这对于我们普通人、对于社会发展意味着什么?要搞懂这一切,首先我们要弄明白什么是词元?
中国信通院信息化与工业化融合研究所副所长黄伟:“它实际上是人工智能理解自然语言最小的基本单元。”
比如,我们问大模型“今天北京天气怎么样?”那么,大模型会把这句话拆分成“今天/北京/天气/怎么样/?/”5个词元,一个词元约等于1.5到2个字。从日常对话、文案创作、视觉生成,再到智能体自主执行复杂任务,AI的应用场景不断拓宽。

过去,我们很难为智力服务找到统一的计量单位,但是词元的出现解决了这一难题。AI从此可计量、可定价、可交易。
