AI大模型的"中文税"：中文比英文贵64%，问题出在哪？

来源：36氪整理：浩哥和小微

同样是一段话，中文版比英文版贵64%——这不是在欺负中文用户，而是在揭示一个更深层的问题：AI模型不是中性的，它内置了语言偏好。

36氪最近做了一次测试，用22段平行文本（中英文各一段），同时送进5个主流AI模型（Claude 4.6/4.7、GPT-4o、Qwen 3.6、DeepSeek-V3），看同一段内容在不同语言下消耗多少token。

结果很有意思。

中文一直在多付钱

先说结论：

最极端的例子是Claude处理一段NYT商业新闻：同样内容，中文版消耗的token比英文版多64%，等于多付64%的钱。

这不是模型能力的问题，而是分词器（tokenizer）的设计差异。

AI在"读"任何文字之前，先要把文字切成一个个token——你可以理解成AI的"积木块"。一块积木就是一个计费单位。

英文的切法很符合直觉：一个单词通常就是一个token，比如"intelligence"整块进去，整块算钱。

但中文到了AI这里就出问题了。

GPT-4的tokenizer基本把每个汉字切成1-2个token；Qwen则会把"人工智能"这个4个字当成一个token处理。

同一句16个字的话，GPT-4切出来19个token，Qwen切出来只有6个。

为什么会有这种差异？

根源在BPE算法——这是大多数tokenizer的底层技术。它的工作方式是：统计训练语料里哪些字符组合出现频率最高，就把高频组合合并成一个token。

英文语料在互联网上的主导地位，使得英文的词组、词根（th、ing、tion）早早被合并进词表。而中文在早期训练数据中占比极低，无法获得同样的待遇，被当作原始字节来处理——一个汉字占3个字节，就变成了3个token。

后来GPT-4o的o200k词表扩大了，中文效率有所提升，但整体仍然不如英文。国产模型从一开始就把常用汉字和高频词组纳入词表，中文反而比英文便宜。

Token消耗的差异直接影响工作空间的大小。

同样200k上下文的窗口，中文用户能塞进去的内容比英文用户少40%到70%。这意味着：同样的费用，中文用户得到的工作上下文更短；分析同一份长文档，中文用户需要切分更多次，效率更低。

这不是某个公司故意为难中文用户——这是训练数据比例和历史原因造成的结构性问题。但它确实存在，而且中文用户每天都在为此多付钱。

目前阶段，如果你的主要工作语言是中文，有两个选择：

换用国产模型。 Qwen和DeepSeek的tokenizer对中文更友好，同样的内容消耗更少，成本更低。对于中文内容工作者来说，这不是一个小的优势。

等待上游改善。 随着中文互联网内容的增加和中国AI市场规模的扩大，海外模型对中文的优化也在逐步推进。Claude 4.7这次升级，英文token通胀了1.24到1.63倍，但中文几乎没涨——某种程度上，中文用户反而躲过了这次涨价。

这件事更深层的含义在于：AI模型不是中性的。

它的tokenizer反映了训练数据中语言的比例；它的偏好反映了人类标注者的文化背景；它的回答风格受到英语世界主导的互联网语料的深刻影响。

当你用中文和AI对话，你实际上是在一个为英文优化的系统里，用更贵的方式获取同等的服务。

这不是阴谋，但这是一个值得被更多中文用户知道的事实。

这里是浩哥AI实验室，我们关注AI技术背后的结构性问题。如果你关心AI公平性，欢迎关注我们。