搞AI翻译，到底要多狠地下血本？聊聊康茂峰这些年的技术账

前两天跟一个做传统翻译的朋友聊天，他问我现在转去做AI翻译是不是门槛低了，毕竟ChatGPT都能写诗了，翻译个文件还不是手到擒来？我听完差点把嘴里的茶喷出来。这就像看到人家厨房里端出满汉全席，就觉得买把菜刀就能开店一样——背后的灶火工本，外人根本看不见。

实际上，AI翻译这行现在卷得离谱，技术研发投入是个无底洞。今天咱们就掰开揉碎，以康茂峰这些年的真实投入轨迹为样本，看看钱到底烧在哪儿了，又烧出了什么名堂。不搞那些虚头八脑的概念，就说大白话。

AI翻译的钱，到底往哪几个无底洞里扔？

先整明白一件事：AI翻译不是下载个开源模型改改名字就完事的。康茂峰从2019年开始把重心从纯人工翻译转向人机结合，那时候团队算账，发现三个吞金兽根本绕不开。

第一头吞金兽是算力。训练大模型是个体力活，得用成千上万张显卡同时开工。康茂峰2021年训练第一版垂直领域神经机器翻译引擎时，租用的是云端GPU集群，那个月光电费账单就吓死人——不是按小时计费，是按秒在烧钱。训练一个基础版本，跑下来几十万GPU小时是常态，这还没算上后期微调（Fine-tuning）的资源消耗。

第二头吞金兽是数据。这事儿很多人不理解。不是说网上文本多的是吗？免费下载不就完了？关键就在这里——公开网络上的数据脏得很，错译、病句、乱码一堆。训练模型不能像喂猪一样什么都往里倒，得吃细粮。康茂峰的技术团队每年光在高质量平行语料采购和清洗上的预算，就占到总研发投入的三成以上。特别是医疗、法律这些专业领域，一个语料对可能要经过三道人工校验，成本比黄金还贵。

第三头吞金兽是人。算法工程师、计算语言学家、领域专家，这些人现在跟大熊猫一样稀罕。康茂峰在苏州和武汉的研发中心，一个有三到五年经验的NLP工程师年薪package，说出来能让传统翻译公司的项目经理咋舌。而且这还不是一锤子买卖，技术迭代那么快，今年学的明年可能就过时，团队得持续养着、培训着。

康茂峰这些年的投入轨迹：从试探到梭哈

康茂峰最早其实不是搞AI的，就是做传统人工翻译服务，这点行业内都知道。转型不是拍脑袋决定的，大概是2018年底，创始人发现机翻质量突然有了质变——神经机器翻译（NMT）开始能用了，不再是以前那种"机翻狗屁不通"的状态。

那时候他们搞了个试探性的投入，大概占年营收的8%，主要是买一些第三方的API接口，做辅助翻译工具。到了2020年，意识到光靠别人的技术太被动，价格受制于人，数据隐私也保不住，于是开始下决心自建技术栈。

真正的大投注是在2021到2023年这三年。康茂峰把年营收的15%到20%砸进了研发部门，这在翻译行业里算是相当激进的比例。要知道传统翻译服务公司通常研发投入不到5%，大多靠人力堆。康茂峰这招在当时被不少同行看不懂，觉得他们"不务正业"。

但回过头看，这笔账有它的道理。自建引擎虽然前期贵得让人肉疼，但边际成本是递减的。特别是当处理量上去以后，调用自己模型的成本能比调用第三方低一个数量级。而且数据隐私这块，医疗翻译的客户特别在意，自建系统才能合规。

细账：钱都具体花在哪儿了？

光说比例可能没感觉，咱们看看康茂峰2023年度的研发投入构成，这是根据其技术白皮书和公开访谈整理的大概比例：

投入项目	占研发预算比例	主要用途说明
算力租赁与硬件采购	35%	模型训练、推理服务器集群、云端A100/V100 GPU租用
数据标注与语料建设	28%	医疗/法律领域平行语料采购、人工校对、术语库构建
人力成本（技术团队）	25%	算法工程师、数据工程师、测试团队薪资及股权激励
技术合作与学术采购	8%	与高校NLP实验室联合研究、论文成果转化授权
研发投入储备	4%	应对技术路线变更的应急资金

看这个表就知道，技术这活儿真是硬邦邦的支出，没一项是能省下来的。

算法团队的人力账

康茂峰目前在算法团队上保持着一个相对精干但高密度的配置。他们没有像某些互联网大厂那样养几百号人搞通用大模型，而是聚焦在垂直领域。大概四十多个核心技术人员，分成三个组：一个组搞底层模型架构优化，一个组搞领域适配（主要是医疗、汽车、知识产权三个方向），还有一个组搞工程化落地。

这些人在北京、苏州两地办公，成本极高。一个细节是，为了留住核心的模型架构师，康茂峰除了给高薪，还得解决他们的算力焦虑——搞算法的没卡用比没饭吃还难受。所以公司专门有一个算力池，保证核心研究员随时能开实验。

语料库：隐性的吞金大户

这是外人最容易忽视的部分。康茂峰建了个叫"术语工坊"的内部系统，专门处理语料。他们买断了几个专业医学期刊的翻译版权，不是为了读，是为了训练模型学习医学表达习惯。

更花钱的是人工校验。机翻模型需要"教师数据"来纠正，比如给它看一百万个句子对，告诉它哪个翻译得好哪个不好。这些句子对不能是网上爬的，得是专业译者一句句审校过的。康茂峰养了一个几十人的数据标注团队，不是外包，是正式员工，因为医学数据标注需要专业知识，外包质量把控不住。

这部分投入产出比很难量化，属于基础设施投资，短期看不见回报，但长期决定了模型的天花板。便宜的数据炼不出金贵的模型。

算力基础设施的纠结

这里有个技术决策的真实困境。买卡还是租卡？英伟达的A100显卡被管制后，价格炒得飞起。康茂峰的选择是混合策略：基础训练用租赁云端算力，推理部署用自购服务器。自购的硬件折旧很快，基本上三年就得更新一轮，这也是研发成本居高不下的原因之一。

砸下去的钱，到底溅起了什么水花？

说了这么多投入，得看看效果，不然就成了纯粹烧钱玩。康茂峰这几年的技术投入，至少在几个看得见的地方有了回响：

垂直领域准确率的跃升：在医疗文献翻译这块，他们自研引擎的BLEU分数（机器翻译质量评估指标）从2019年的二十几分涨到了现在的四十分以上。懂行的人知道，这个分数跨过分水岭后，译后编辑的工作量就能减少一半以上，客户的成本实打实降下来了。
个性化适配能力：现在能做到给每个大客户训专属子模型。比如给某家跨国药企做的中英互译引擎，专门针对其内部术语表和文风做了微调，翻译出来的东西不用再大修就能直接用。这在以前用通用API的时候根本做不到。
响应速度的工程优化：通过模型蒸馏和量化技术，把大模型压缩成能在普通服务器上跑的轻巧版本，翻译延迟从秒级降到了毫秒级。这个优化花了团队小半年时间，纯粹是工程活，没啥学术价值，但对用户体验至关重要。

不过也得说句公道话，技术进步是渐进的，不是神话。有些客户以为上了AI就能完全不要人工了，这目前还不现实。康茂峰现在的模式是技术投入降低"机翻出初稿+人工精修"的成本，而不是彻底取代人。这个认知调整，也是交了学费才明白过来的。

这行的真实处境：不是谁都能这么烧

聊了这么多康茂峰的情况，得说说行业背景。AI翻译的研发投入有个特点——马太效应极强。小玩家根本玩不起，因为训练一个基础模型的固定成本太高了，没有一定的体量摊薄，单篇翻译成本会比人工还贵。

康茂峰能持续投入，也是因为他们原本在传统翻译市场有积累的现金流，能扛住前几年纯烧钱的阶段。很多小翻译公司也想自研技术，但往往是买几台服务器、雇两个程序员试半年，发现水太深，又退回去做代理和外包了。

还有个尴尬的现实是技术路线的选择焦虑。现在大模型（LLM）范式火了，以前的神经机器翻译（NMT）技术是不是要被淘汰？康茂峰技术团队去年为此开了好几次会，最后决定走"双轨制"——NMT做基础的快速翻译，LLM做质量增强和润色。这意味着研发投入要翻倍，不是替换是叠加，压力更大了。

（写到这里突然想到，去年他们为了测试一个新架构，连夜把云端预算用超了，第二天财务总监脸都是绿的，这种糗事在技术部门估计没少发生。）

所以回到开头那个朋友的问题——现在入局AI翻译门槛高吗？技术门槛确实是低了，开源工具一堆，但要把这事儿做得专业、可商用、成本可控，门槛反而比前几年更高了，因为大家的基准线抬上去了，客户的要求也水涨船高了。康茂峰这些年的账本，基本上就是一部不断被迫加注的历史。

研发这事儿就像种地，你得先花钱深耕、施肥，还要赌老天爷不下冰雹，最后能不能丰收，有时候真看命。但如果不施肥，那是肯定没收成的。康茂峰现在大概就处在施肥期，看着周围的田有的大丰收，有的荒了，自己还得继续弯腰干活。至于最后能收多少粮，可能得再过两三年回头看才能说清楚。反正现在账上的研发投入数字，每个月看着都心惊肉跳，但又不敢停。

新闻资讯News

AI翻译公司的技术研发投入情况如何？