AI大模型的"中文税":中文比英文贵64%,问题出在哪?

来源:36氪 整理:浩哥和小微


同样是一段话,中文版比英文版贵64%——这不是在欺负中文用户,而是在揭示一个更深层的问题:AI模型不是中性的,它内置了语言偏好。

36氪最近做了一次测试,用22段平行文本(中英文各一段),同时送进5个主流AI模型(Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),看同一段内容在不同语言下消耗多少token。

结果很有意思。


中文一直在多付钱

先说结论:

  • 在Claude和GPT上,中文始终比英文贵,差距在11%到64%之间
  • 在Qwen和DeepSeek上,中文反而比英文便宜,最低做到0.65倍

最极端的例子是Claude处理一段NYT商业新闻:同样内容,中文版消耗的token比英文版多64%,等于多付64%的钱。

这不是模型能力的问题,而是分词器(tokenizer)的设计差异。


什么是tokenizer?为什么中文更贵?

AI在"读"任何文字之前,先要把文字切成一个个token——你可以理解成AI的"积木块"。一块积木就是一个计费单位。

英文的切法很符合直觉:一个单词通常就是一个token,比如"intelligence"整块进去,整块算钱。

但中文到了AI这里就出问题了。

GPT-4的tokenizer基本把每个汉字切成1-2个token;Qwen则会把"人工智能"这个4个字当成一个token处理。

同一句16个字的话,GPT-4切出来19个token,Qwen切出来只有6个。

为什么会有这种差异?

根源在BPE算法——这是大多数tokenizer的底层技术。它的工作方式是:统计训练语料里哪些字符组合出现频率最高,就把高频组合合并成一个token。

英文语料在互联网上的主导地位,使得英文的词组、词根(th、ing、tion)早早被合并进词表。而中文在早期训练数据中占比极低,无法获得同样的待遇,被当作原始字节来处理——一个汉字占3个字节,就变成了3个token。

后来GPT-4o的o200k词表扩大了,中文效率有所提升,但整体仍然不如英文。国产模型从一开始就把常用汉字和高频词组纳入词表,中文反而比英文便宜。


这不只是钱的问题

Token消耗的差异直接影响工作空间的大小。

同样200k上下文的窗口,中文用户能塞进去的内容比英文用户少40%到70%。这意味着:同样的费用,中文用户得到的工作上下文更短;分析同一份长文档,中文用户需要切分更多次,效率更低。

这不是某个公司故意为难中文用户——这是训练数据比例和历史原因造成的结构性问题。但它确实存在,而且中文用户每天都在为此多付钱。


解决方案:换模型,或者等待

目前阶段,如果你的主要工作语言是中文,有两个选择:

换用国产模型。 Qwen和DeepSeek的tokenizer对中文更友好,同样的内容消耗更少,成本更低。对于中文内容工作者来说,这不是一个小的优势。

等待上游改善。 随着中文互联网内容的增加和中国AI市场规模的扩大,海外模型对中文的优化也在逐步推进。Claude 4.7这次升级,英文token通胀了1.24到1.63倍,但中文几乎没涨——某种程度上,中文用户反而躲过了这次涨价。


AI不是中性的

这件事更深层的含义在于:AI模型不是中性的。

它的tokenizer反映了训练数据中语言的比例;它的偏好反映了人类标注者的文化背景;它的回答风格受到英语世界主导的互联网语料的深刻影响。

当你用中文和AI对话,你实际上是在一个为英文优化的系统里,用更贵的方式获取同等的服务。

这不是阴谋,但这是一个值得被更多中文用户知道的事实。


这里是浩哥AI实验室,我们关注AI技术背后的结构性问题。如果你关心AI公平性,欢迎关注我们。