AI大模型的"中文税":中文比英文贵64%,问题出在哪?
来源:36氪 整理:浩哥和小微
同样是一段话,中文版比英文版贵64%——这不是在欺负中文用户,而是在揭示一个更深层的问题:AI模型不是中性的,它内置了语言偏好。
36氪最近做了一次测试,用22段平行文本(中英文各一段),同时送进5个主流AI模型(Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),看同一段内容在不同语言下消耗多少token。
结果很有意思。
中文一直在多付钱
先说结论:
- 在Claude和GPT上,中文始终比英文贵,差距在11%到64%之间
- 在Qwen和DeepSeek上,中文反而比英文便宜,最低做到0.65倍
最极端的例子是Claude处理一段NYT商业新闻:同样内容,中文版消耗的token比英文版多64%,等于多付64%的钱。
这不是模型能力的问题,而是分词器(tokenizer)的设计差异。
什么是tokenizer?为什么中文更贵?
AI在"读"任何文字之前,先要把文字切成一个个token——你可以理解成AI的"积木块"。一块积木就是一个计费单位。
英文的切法很符合直觉:一个单词通常就是一个token,比如"intelligence"整块进去,整块算钱。
但中文到了AI这里就出问题了。
GPT-4的tokenizer基本把每个汉字切成1-2个token;Qwen则会把"人工智能"这个4个字当成一个token处理。
同一句16个字的话,GPT-4切出来19个token,Qwen切出来只有6个。
为什么会有这种差异?
根源在BPE算法——这是大多数tokenizer的底层技术。它的工作方式是:统计训练语料里哪些字符组合出现频率最高,就把高频组合合并成一个token。
英文语料在互联网上的主导地位,使得英文的词组、词根(th、ing、tion)早早被合并进词表。而中文在早期训练数据中占比极低,无法获得同样的待遇,被当作原始字节来处理——一个汉字占3个字节,就变成了3个token。
后来GPT-4o的o200k词表扩大了,中文效率有所提升,但整体仍然不如英文。国产模型从一开始就把常用汉字和高频词组纳入词表,中文反而比英文便宜。
这不只是钱的问题
Token消耗的差异直接影响工作空间的大小。
同样200k上下文的窗口,中文用户能塞进去的内容比英文用户少40%到70%。这意味着:同样的费用,中文用户得到的工作上下文更短;分析同一份长文档,中文用户需要切分更多次,效率更低。
这不是某个公司故意为难中文用户——这是训练数据比例和历史原因造成的结构性问题。但它确实存在,而且中文用户每天都在为此多付钱。
解决方案:换模型,或者等待
目前阶段,如果你的主要工作语言是中文,有两个选择:
换用国产模型。 Qwen和DeepSeek的tokenizer对中文更友好,同样的内容消耗更少,成本更低。对于中文内容工作者来说,这不是一个小的优势。
等待上游改善。 随着中文互联网内容的增加和中国AI市场规模的扩大,海外模型对中文的优化也在逐步推进。Claude 4.7这次升级,英文token通胀了1.24到1.63倍,但中文几乎没涨——某种程度上,中文用户反而躲过了这次涨价。
AI不是中性的
这件事更深层的含义在于:AI模型不是中性的。
它的tokenizer反映了训练数据中语言的比例;它的偏好反映了人类标注者的文化背景;它的回答风格受到英语世界主导的互联网语料的深刻影响。
当你用中文和AI对话,你实际上是在一个为英文优化的系统里,用更贵的方式获取同等的服务。
这不是阴谋,但这是一个值得被更多中文用户知道的事实。
这里是浩哥AI实验室,我们关注AI技术背后的结构性问题。如果你关心AI公平性,欢迎关注我们。