对话元语智能:做中国版ChatGPT,为什么坚持大模型开源路线?
做中国的ChatGPT不难,做中国的OpenAI很难。
作者 | 赵健
在ChatGPT刮起AI风暴之后,国内的大厂迅速跟进,百度、阿里、网易、科大讯飞等均表态,争做中国版的ChatGPT。
ChatGPT是一个聊天机器人,要想从产品形态上复现其实并不困难,过去的苹果Siri、微软小冰、各个平台的客服机器人都是类似形态。但ChatGPT与它们真正拉开差距,从人工智障到人工智能的关键一跃,靠的是OpenAI的AI大模型能力。
国内大厂也曾推出过大模型,但与OpenAI相去甚远,有人评价差距至少在1~2年。而国内创业公司做大模型,更是屈指可数。
位于杭州的元语智能,算是其中一家。
元语智能孵化于中文NLP开源社区CLUE。CLUE成立于2019年,是第一个大规模的中文语言理解标准评价体系,阿里、华为、百度、字节跳动、美团、网易、OPPO、招商银行等知名大厂都使用了CLUE的评测基准。
元语智能创始人、CEO徐亮同时也是CLUE的发起人,此前在AI+RPA厂商实在智能担任算法合伙人;张轩玮为联合创始人、CTO,也是CLUE联合发起人及副会长,毕业于北京大学,此前在爱奇艺从事NLP大模型和机器翻译等相关工作;朱雷为联合创始人,COO,曾在平安和阿里达摩院从事NLP产品设计相关工作,在AR独角兽Rokid负责算法应用产品相关工作。
元语智能成立于2022年11月。不久之后,ChatGPT的横空出世为元语智能的产品节奏推了一把力。12月30日,元语智能微信小程序(英文名ChatYuan)发布测试版,被称为国内首个中文版ChatGPT,2月份在互联网引发热议。
创业公司做大模型,很多人并不看好。毕竟,OpenAI因训练其GPT模型,大概花费了1200万美元。在原美团二号人物王慧文宣布拿出5000万美元组队后,有证券分析师隔空吐槽:5000万美元够干什么?大模型训练一次500万美元,训练10次?
不同于ChatGPT的闭源模型,开源是元语智能的基因。由于早期做了很多开源工作,孵化于CLUE的元语智能也获得了社会各界以及多个云厂商的支持,进而解决了早期模型训练的资源问题。
开源大模型并非个例。就在三天前,Meta宣布推出媲美ChatGPT的LLaMA大模型,也是一个开源工具。
用开源的方式做大模型,会是未来一个方向吗?
近期,「甲子光年」采访了元语智能三位联合创始人,围绕国产大模型的发展进行了深入的沟通。
1.谈创业:ChatGPT给我们的产品推了一把力
甲子光年:是怎么想到做大模型创业的?
徐亮:现在大家说进入了AGI(通用人工智能)时代,在过去大家叫大规模多任务阶段。像谷歌、Meta等科技公司都针对大模型多任务有相关研究,这比更早之前一个模型支持一个任务有了很大的进步。但绝大多数都是英文任务。
2019年我发起CLUE开源社区,目的就是整合全球的中文数据集,给国内外中文领域的NLP模型做测评基准。之后,我们孵化元语智能,在中文领域的大规模多任务方向上做了大量的工作。
2022年10月,我们发布了7.7亿参数的 PromptCLUE 开源模型,能够支持理解类、抽取类、生成类等所有类型的中文任务,并在此基础上构建了ClueAI的API服务,累计访问量接近800万次了。
2022年11月,元语智能作为独立公司正式成立。
甲子光年:11月30日ChatGPT发布,你们用过之后有什么感受?
徐亮:当时我们也看到了好多的报道,试用之后发现比之前的能力提升了一大截,超过了人们对AI的普遍期望值。我们认为这是一个很大的趋势。
所以我们基于在PromptCLUE上的技术和数据积累,在12月30日——ChatGPT推出后的不到一个月——发布了ChatYuan,是国内首个基于百亿参数的中文大模型功能对话产品。我们的目标是做一个中国版的ChatGPT。
甲子光年:PromptCLUE与ChatYuan是什么关系?
张轩玮:这种关系可以简单类比为ChatGPT与GPT-3,但不完全一样。
PomptCLUE是一个中文多任务大模型,基于大量无监督和有监督数据,并结合prompt的优化方式进行训练。ChatYuan在多任务大模型PromptCLUE上,进一步结合人类反馈数据,利用强化学习方式来迭代模型,更好地理解人类意图。
微信小程序与网页版用的都是ChatYuan百亿参数的模型,也可以通过API的形式调用。
甲子光年:ChatGPT的出现,有没有改变你们产品发布的节奏?
朱雷:从技术演进的角度看,并没有特别干扰。
但产品推出的节奏确实有影响,我们重新做了产品梳理,包括小程序和网页版的产品设计,也有了一些新的思考。ChatGPT是促进我们产品往前走比较大的动力。
甲子光年:ChatGPT发布之前,AI大模型实际上早就存在了,为什么那时候大模型的关注度并没有现在高?
徐亮:过去大家也在谈大模型,比如OpenAI的GPT-3、谷歌的Flan-T5,能够解决各种生成类、写作类任务,但实际上并没有跟业务有太多结合,而且使用门槛较高,需要有一定的技术背景。
张轩玮:大模型在技术领域已经研究了很久,并且基于Transformer做大模型已经基本达成了共识,只不过过去这件事没有出圈。GPT-3当时在人工智能圈子还是掀起了一波小的浪潮的,大家都觉得生成式能力非常强,未来想象空间比较大,但当时没有产品化,没有真正地跟场景做结合。现在ChatGPT出来后,让人们看到了AI边界是超出我们想象的。
甲子光年:元语智能微信小程序上线3天就下线了,原因是什么?
朱雷:网上一些截图显示的回复是网友恶搞的,现在申诉重新上线已经通过了。我们现在在优化和完善功能,所以现在打开小程序的说法已经不是违规下线,而是系统更新维护中。预计很快会重新上线。
甲子光年:目前的融资进度是怎样的?
徐亮:目前来看融资情况还是比较顺利的。天使轮已经推进到非常靠后的阶段,下一轮也已经在筹划中。我们会在合适时机进行披露。
甲子光年:现在团队有多少人?
徐亮:现在在扩大规模的过程中,今年预计会达到30人的规模。之前是小团队在加速迭代的过程。
甲子光年:您现在还是CLUE的会长吗?元语智能与CLUE现在是什么关系?
徐亮:组织上完全独立,但研究上有合作,我与张轩玮是以个人的名义参与到CLUE的运营和推广,但我们的主业是元语智能。未来CLUE和元语智能肯定是要共同推动大模型与开源事业的进步。
2.谈成本:云厂商给了很大的支持
甲子光年:大模型的训练成本非常高,元语智能是如何解决训练成本问题的?
徐亮:在国外训练一个千亿参数模型,成本大概在450万~1000万美元之间,在中国至少也需要同等量级的人民币。
大家也在做降低训练成本的实验,比如只是在13亿参数的InstructGPT模型上结合人类反馈强化学习机制,能够超越1000多亿参数的模型。几十亿参数的模型训练成本是大幅降低的,所以你要达到一个相对可以的效果,真正消耗的资源会小一些。
我本人从2016年开始做开源。2019年成立CLUE之后,基于中文数据集和基准发布了很多项目,获得了开源用户和社会的广泛认可。在孵化元语智能的过程中,我们也在持续地推进开源工作,并且已经开源了PromptCLUE等模型,从而获得了一些云厂商的支持,他们为我们提供了基础算力。
甲子光年:云厂商的支持形式是什么?
徐亮:是以算力资源的形式支持,对于大模型研究来说,这是很重要的。
因为云厂商也对开源事业抱有一定的热情,他们也愿意承担一些社会责任,所以会对开源做一些赞助。近期因为ChatGPT发展迅猛,打破了很多人的固有认知,国内某大型云厂商高层还来到杭州跟我们讨论后续的深度合作。
甲子光年:计划跟一家云厂商合作还是多家?
朱雷:目前是很开放的,因为CLUE、元语智能的理念和信仰就是开源。
同时我们也在考虑与国产自研芯片厂商进行合作,建立自己的GPU计算集群。
甲子光年:OpenAI训练GPT-3模型,用了45TB的文本数据。训练ChatYuan用了多少数据?
徐亮:45TB是原始数据,过滤之后大概是 600~800GB,ChatYuan的无监督语料差不多在同等量级。但ChatYuan在中文语料方面要比GPT-3更多,有千亿级别的字词、数亿级别的对话数据。
甲子光年:数据质量是怎么做的?
张轩玮:数据是我们团队的优势。我们从2019年开始做CLUE,发布大规模、高质量的中文数据集,并形成了一些任务基准。另外一方面,去年我们在孵化期间有专门的数据标注团队,并且也花了大量的时间和精力,去研究如何结合模型进行自动化数据质量提升。在中文数据的认知层面,我们走在国内的前列。
当然我们也承认,国内的数据质量和标准化程度、规模还有很大的优化空间。
甲子光年:为什么中文数据集相比国外比较落后?
徐亮:是开源的生态和程度不够。国外有很多框架、工具,把数据集进行了标准化的集成。在中文环境你可能经常看到各种各样的数据,但又非常分散零碎。另一方面,很多数据都是掌握在平台级企业里面,形成了数据孤岛,因此,中文语料的开放程度和标准化程度还不够。
甲子光年:CLUE的数据集是开源的,其他公司也可以使用。元语智能在数据层的优势是什么?
徐亮:没错,CLUE的开源数据集各个厂商都可以使用,但对于数据的提纯、数据测评基准的认知,是我们的优势。
基于对数据的认知,我们在2021年、2022年做了data-centric AI相关的中文项目,构建了基于大模型的数据标注工具。另一方面,一些数据集我们通过CLUE的平台发布,也积累了大量高质量的数据。
3.谈路线:基于T5架构完全自研
甲子光年:从技术路线上来说,ChatYuan与其他大模型有什么不同?
张轩玮:NLP领域有三大预训练模型BERT、GPT与T5。PromptCLUE是基于T5架构,在中文语料下进行无监督和有监督的中文多任务训练模型。然后我们在PromptCLUE的基础上,利用大量多轮对话数据、结构微调、参数量升级,结合人类反馈和强化学习训练出大模型ChatYuan。
甲子光年:为什么ChatYuan选择T5架构而不是另外两个?
张轩玮:其实我们内部也讨论过很多次。现在ChatGPT火起来了,大家似乎觉得其背后的GPT架构会成为一个主流路线,但其实GPT、T5没有谁占绝对的主导。
BERT是Encoder(编码器)架构,擅长理解类任务;GPT是Decoder(解码器)架构,擅长生成类任务;T5是Encoder-Decoder架构,编码器用于理解、解码器用于生成,在理解和生成上都能提供不错的效果。
实际上,有很多的热门模型也是基于T5做的,比如Hugging Face推出的T0,谷歌推出的FLAN-T5等,长远来看我们认为多种架构都可以实现共同的目的。
徐亮:GPT是OpenAI提出的,BERT、T5是谷歌提出的,每个大厂都会主导自己的方向。就像高手对决一样,你有刀、别人有盾,关键是把武器发挥到最大价值。
实际上我们也在T5上做了模型loss等学习方式的优化,并且结合了prompt learning(提示学习)。
甲子光年:基于T5架构,算是自研吗?
徐亮:是完全自研的。首先,BERT、GPT、T5都是基于Transformer。只是在具体路线上,我们选择了Encoder-Decoder路线。这里我们讲的T5只是一个架构,不是现成的模型。我们按照T5的路线方法,从0到1完整地自研了一套模型。
甲子光年:ChatYuan是一个多任务训练模型,如何理解单任务与多任务?
徐亮:BERT是一个单任务模型,能够通过模型微调的方式解决一个个具体的任务,但主要的困难和挑战在于,在实际业务中会有非常多的任务,每一个任务既要训练模型、又要标注、又要做算法功能调试,比较费时费力。
基于GPT、T5的模型能够实现一个模型支持所有的任务,模型架构更加通用、可扩展性,效率更高、成本更低。这与现在的AGI的方向是非常吻合的。
甲子光年:ChatYuan的创新性体现在什么地方?
张轩玮:Transformer是一个具有跨时代意义的架构,目前形成了大一统局面,这是大家的共识。在此基础上,我们的原创性在于Encoder-Decoder加上Prompt Learning、人类反馈强化学习等。
具体来说:
1、基于从零训练的全中文任务支持零样本学习模型PromptCLUE进一步迭代获取;
2、在中文领域首创功能对话形式,支持全中文任务,支持自由输入;
3、结合人类反馈强化学习,对齐人类意图。
甲子光年:ChatYuan引入的人类反馈强化学习机制,效果怎么样?
徐亮:AI研究很多年前就引入了,但过去在NLP领域的尝试都失败了,现在国内都在尝试引入这种方法。我们也在迭代的过程中,目前已经初步结合强化学习,效果有不错的提升,预计很快就会有一些更大的突破,目前还在调优当中。
甲子光年:在关于ChatYuan的描述中,去掉了文本理解和信息抽取类的任务,加强了生成式的任务。既然选择了Encoder-Decoder架构路线,为什么又要做功能上的取舍?
徐亮:我们当时参考了OpenAI的任务分布情况统计,大概有40%的生成类任务,10%的问答类任务,但抽取类、理解类任务占比相对较小。我们认为在人机交互的场景,抽取类、理解类任务的占有率会小于5%,也就是用户不太多,所以我们暂时把它去掉了。
当然从原理上来说,大模型的能力很强,后面我们也会计划加上抽取、理解类等任务。
4.谈差距:不是做中国版OpenAI,而是做中国版ChatGPT
甲子光年:有用户试用ChatYuan之后,说大概只有GPT-2的水平。你们觉得与ChatGPT差距有多大?
张轩玮:用户体验过我们初代产品后,觉得整体效果不如ChatGPT,可能就直接认为我们是GPT-2的水平。其实GPT-2是基本没有多任务交互能力的。
而且我们在中文语料上更有优势。在很多任务维度上我们与ChatGPT不相上下,但在一些复杂任务、非常情况化的模拟以及复杂推理、数学计算等方面还是有差距。这也是后续重点优化方向。
徐亮:实际上经过一段时间的迭代,效果又有了大幅的提升。比如,我们之前代码生成效果比较弱,但新版本小程序上线之后也初步支持代码生成,格式非常标准,带有中文注释;也具有内容二次编辑、场景模拟等多方面内容。
实际上我们与ChatGPT的前一代版本(Davinci 003和InstructGPT)的效果类似。
甲子光年:国内大厂也推出过大模型,但为什么没有推出ChatGPT?
徐亮:OpenAI在一个技术方向上持续迭代,起步的时候就受到了长期的资金支持,而国内在基础研究方面投入的资源是比较有限的。
即使是大厂的一些机构,资源相对充分,但很多部门有各种现实的考核,需要产生更多与业务相关的价值,是为企业的商业诉求服务的,这也导致真正想做基础研究的人没法长时间待下去。而基础性研究的工作,里面会包含大量的试错。长期主义氛围还是有待近一步提升,因此原创性的进展还是比较弱的。
朱雷:国内的大部分公司其实更擅长做应用和商业模式,从这个维度上说,我们比国外还要优秀。应用层的用户体验、用户增长、商业模式,这是国内公司擅长的。未来要想跟国外缩小差距,一开始的视角就是要先做自己擅长的事情,然后慢慢补足基础研究,我觉得这也是合理的。
从长期来看,未来国内能不能做出类似于Transformer的原创性基础架构方案?我认为非常有机会。
甲子光年:现在还有必要从0到1做一个类似Transformer的架构吗?
张轩玮:当公司达到一定量级的时候,比如有足够多的资金、有足够多的人才积累,我们也有这个责任去做。但现在谈这个还太遥远。
甲子光年:Transformer是一个开放架构,也存在卡脖子的问题吗?
徐亮:真正核心的地方在于,你不知道有没有卡脖子。Transformer开放了,但他们还在继续推动基础研究,这其实是一个完整的矩阵链。除了AI的基础研究,他们还有商业航天、可控核聚变、量子计算等等,这些都算基础研究,大部分核心技术都不对外开放。
所以国内的大厂和创业公司都认可这一点,我们未来一定要做原创性的基础研究,尤其是ChatGPT一出来,把过去大家对AI的误解和不看好打碎了,大家突然醒悟过来,一定要做这件事,最近层出不穷的业内专家、AI从业者都出来说我要做中国的OpenAI,虽然要么是先驱、要么是先烈,但毫无疑问都非常激动。
甲子光年:我们跟OpenAI的差距有多大?有人说在1~2年。
朱雷:OpenAI这家公司做了很多事情,不只是文本相关,还有AI绘画工具DALL-E、代码生成工具Codex,生命科学可能也在做。OpenAI是一家很特殊的公司,工程化、系统化的能力非常强。如果阿里达摩院说要对标OpenAI我认为是可以的,达摩院内部也有很多团队,即使深度上有不足,广度上也可以对标。
从我们自己来看,我们是想通过一段时间的积累完成对ChatGPT能力的赶超。我们的目标不是要做国产化的OpenAI,而是要做一个国产化的ChatGPT。远期可能有更高的视野,但目前还是非常理性地在一点点优化。
甲子光年:大厂也做准备推出类ChatGPT产品。您认为大厂会做成什么水平?
张轩玮:百度的文心一言,我们预测它的效果应该还可以。百度有数据,也有模型基础,从文心1.0、2.0,包括深度学习框架飞桨,所以百度会有一定优势。但什么时候能赶上ChatGPT,我们也没有办法预估。
甲子光年:创业公司现在从零开始做大模型,需要多久能做出来?
徐亮:如果是招一群有经验的工程师从零开始做,可能需要半年到一年的时间。这个过程中,在某些环节到底是往东走还是往西走,需要有决策判断。如果没有任何的决策失误和技术误判,可能需要半年的时间;如果方向做偏了,可能要一年或更多。
另一种情况是之前有一些研究性的东西,比如像我们一样做过一些数据维度的工作,有一定的技术与模型积累,至少也需要很长一段时间。
5.谈开源:to B做落地,to C做产品
甲子光年:ChatGPT是闭源的,为什么ChatYuan要选择开源的方式做大模型?
徐亮:和我们的基因有关系。我们的背景就是开源,无论是在CLUE还是更早之前,做了好多开源项目。我们从开发者中来,到服务开发者中去,带有一定的理想主义,如果对社会有价值,不一定通过售卖的方式,开源也是一种方式。元语智能的模型,全平台下载量已经接近10万次了。有数万人在使用,也产生了很大的社会价值。
另外一方面,从商业视角来看,我们认为大部分客户本身付费意愿不强,只有一小部分客户有付费能力和付费意愿,他们需要更高阶的版本,需要我们提供必要的技术支持和服务。有了收入会更好地支持我们我们提升大模型的能力,为社会做贡献。
甲子光年:开源产品会公开一部分模型,那么竞争力如何体现?
徐亮:一方面,我们通过直接提供C端的产品(比如小程序)让用户使用,以及通过开源方式让个人开发者和大量中小企业以非常低甚至为零的成本获取大模型能力。开源版本能解决百分之六七十的用户需求。
另一方面,我们的版本是在持续迭代的,进化速度非常快。
张轩玮:从竞争力的角度来看,即使我们把模型开源,也能更快地得到用户的反馈,更好地指导模型的优化方向,形成一个良性循环。另外算法优化是一个核心秘方,需要大量的迭代、实践、对比,才能找到一个正确的优化方向。因此,其他大模型厂商也需要投入大量的精力和资源,才有可能达到一个不错的效果。
只有真正做了这个事情,才有可能预测和感知未来的发展方向,不然会走偏。
甲子光年:跟闭源的大模型厂商相比,我们的优势是什么?
朱雷:OpenAI在GPT-1、GPT-2的时候也是开源的。GPT-3虽然闭源了,但它还是发Paper,带有一点点开源的属性,大家会看它的Paper去做复现,全球开发者也会给他们提供一些思路。
相似的,大量中小开发者也会给我们提供一些建议和意见,这是一种非常好的输入。我们的团队只是想通过开源的方式让更多的人参与到大模型中来。这是我们的坚持。
甲子光年:开发者能给到哪些有价值的反馈?
徐亮:开源本身也是一种开放合作的精神。通过开发者的反馈,我们也知道开发者对于模型效果的反馈和业务需求,基于这些反馈我们能进一步迭代模型的效果。
而且有很多合作伙伴,无论是语音厂商、芯片厂商,还有一些企业级的客户,因为开源找到了我们。有的客户用开源版本做本地部署,如果认可我们的效果,就有机会推动进一步的合作。
甲子光年:有做大模型的企业并不认可开源的方式,认为开源更适合做局部优化而非系统性优化。您是否认同?
徐亮:可能他对开源带来的价值理解还不够。不同的人有不同的理解和想法,通过开源开放的态度共建一个良好的生态,这条路是我们的选择。
实际上,开源在国外非常普遍,千亿级别的也非常多,而且谷歌、Facebook也不断地做各种开源项目。开源也是为了产生正向价值,但正向价值不一定要直接通过赚钱的形式,开源也能产生非常好的社会效益和支持,实际上也是一种文化自信或技术自信。我们即使把好的东西都开源,自己还会继续迭代出更好的版本。
甲子光年:大模型开源如何做商业化?
朱雷:我们最重要的一点是要赋能行业。部分行业内的头部公司,我们已经有比较深入的合作了。
ChatYuan虽然也在很多行业数据上训练了,但我们认为还不够,也希望和行业客户共建行业大模型。我们底层的大模型对于to B和to C是兼容的,都是类似的技术方案。
甲子光年:做to C是为了数据反馈训练模型,而不是为了商业变现吗?
张轩玮:主要是为了得到市场和用户的反馈,给优化模型提供好的指导方向,也是想让更多开发者和用户看到我们的价值。
甲子光年:除了小程序之外,会做自己的App吗?
朱雷:小程序和网页是传播最广的,暂时还没有自己独立做App的打算。
甲子光年:你们与大厂的关系会如何发展?
徐亮:我们是非常开放的。之前在做CLUE时,我们跟达摩院、百度、华为、腾讯的关系都非常好,我们的心态是要与他们一起共建中文大模型。
甲子光年:大模型的下一个发展趋势是多模态,常见的是文本、语音、图片三模态。你们有没有多模态的布局?
张轩玮:我们暂时没有把多模态作为目前的主要方向,但是我们会持续关注。
6.谈趋势:大模型将给NLP行业带来洗牌
甲子光年:在这一次AI大模型火起来之前,行业内基本都在做小模型。如何看待大模型与小模型的关系?
徐亮:通常来说,小模型是针对一些针对特定行业的公司,比如金融、医疗、工业等。小模型对于理解类、抽取类这种传统任务解决的比较好。
但小模型也有两个弱点。第一是业务多了以后需要非常多的小模型,维护成本也会随之提高;其次,小模型的能力只限于理解类、抽取类这些常见的任务,在生成类任务上能力是很弱的,甚至是没有。而大模型目前看在这些方面效果有大幅提升。
大模型就像大脑,承载知识的能力、思考能力会很强。
甲子光年:如果大模型代表未来趋势,是否会对小模型公司带来挑战?
张轩玮:挑战是有的,但是并不代表会直接取代,我们觉得未来可能一起合作是一个很值得大家探讨的思路。
甲子光年:一些过去做小模型的公司,比如智能客服,现在也在宣传大模型。
朱雷:是的,这也侧面反映大家对大模型方向的关注和认同。这是一个非常积极的信号,我们也希望能和智能客服公司能探索出更好的共建模式。
甲子光年:小模型的参数是多少量级?
徐亮:参数量的大小是相对的,没有一个绝对的界限。过去的小模型比如Bot类,亿级别的就够了,甚至千万级别。
甲子光年:大模型对于NLP行业发展,带来了哪些影响?
徐亮:实际上已经超过NLP的范畴了,它影响的是各行各业,它是一个新的范式转移,从互联网到移动互联网,到通用人工智能时代,甚至比之前的范式转移价值更大。我们觉得带来的影响不可估量。
朱雷:有很多创业者说,很多斯坦福的大学生直接不学了,直接出来创业。
甲子光年:如果从个人的角度来看,比如AI从业者,大模型的趋势对个人意味着什么?
徐亮:有的算法工程师很焦虑,但对所有AI从业者来说,既是一个挑战,也是一个机会,可以结合大模型来完善自己的研究方向。吴恩达还专门发了推特,说不要认为大模型的出现,自己做的工作没有任何意义。过去的工作或研究经验是非常有价值和意义的。