大火的ChatGPT,比国内的大模型强在哪里
本文将从以下几个方面展开:
1. AIGC和大模型2. ChatGPT和国内大模型对比3. 国内大模型差在哪里4. 小结
AIGC和大模型
ChatGPT最近无疑是最火得AI模型,从前阵子CV的diffusion model做文生图手里拿到了交接棒,给AI,AIGC续上了热度。几天内能达到100w注册用户,里面国内用户占比应该不少。从效果来看,ChatGPT和diffusion model都有很惊艳的效果,但个人觉得ChatGPT带来得震撼会更多一点。diffusion model做图片生成本质上还只是一种能力的展现,而ChatGPT展示的能力范围就太广了,这也是几天内能达到100w注册用户的原因,大家总能测到他有更新奇的应用。
大家疯狂测试的时候也看到很多羡慕的声音,为什么每次都是国外先有的,比如GPT-3,DALLE,diffusion model,ChatGPT等等,国内什么时候能有个火出圈得模型,本文就想找一两个国内的大模型和ChatGPT对比一下差距在哪里,顺便也提一些自己的感触。
ChatGPT和国内大模型对比
ChatGPT目前网上已经有很多的测试图片了,但没有系统性的整理不同能力级别,我这边尝试按照支持场景去对比。国内大模型选择两个,一个是GPT-3中文版,另一个是GLM-130B,主要是这两个demo体验还可以。先给出模型链接:
- ChatGPT:https://chat.openai.com/chat
- 中文GPT-3 13B:ModelScope 魔搭社区
- GLM-130B:GLM 130B - a Hugging Face Space by THUDM
ps:写在对比之前,每个场景只是随便找一个case测试,存在偶然性,而且评价对比也全是个人感觉
代码生成
先从代码开始,考个面试题看看
ChatGPT
中文GPT-3
GLM-130B
代码生成整体来看, ChatGPT > 中文GPT-3 > GLM-130B
ChatGPT 除了写出代码,还能告诉你怎么去使用,并且配有文本,有CSDN代码那味了
翻译生成
ChatGPT
中文GPT-3
GLM-130B
翻译生成整体来看, ChatGPT > GLM-130B > 中文GPT-3,可能是因为前两个都是多语言的大模型,中文GPT-3就只有中文能力
sql语句生成
sql语句算是对大部分代码开发者来说比较常用的了,测试一下这个效果
ChatGPT
中文GPT-3
GLM-130B
sql语句生成整体来看, ChatGPT > 中文GPT-3 > GLM-130
常识问答
针对一些常识问答,看看怎么样
ChatGPT
中文GPT-3
GLM-130B
常识问答生成这个case来看, ChatGPT > 中文GPT-3 > GLM-130B
事实性问答
ChatGPT
中文GPT-3
GLM-130B
事实性问答生成这个case来看, ChatGPT虽然列了很多,但是没有捕捉到核心,中文GPT-3这个提到了青训,还是挺难的对,所以:中文GPT-3 > ChatGPT > GLM-130B
小说续写
找个中国名著,看能不能beat掉外来的和尚
ChatGPT
中文GPT-3
GLM-130B
测试到现在,国内大模型终于扳回一城,不容以啊,个人感觉: 中文GPT-3 > GLM-130B > ChatGPT
诗词生成
再来个中国元素的诗词测试
ChatGPT
中文GPT-3
GLM-130B
诗词这个ChatGPT写的有点错误了,中文GPT-3这个续写的是正确的,个人感觉: 中文GPT-3 > ChatGPT > GLM-130B
专业文稿撰写
因为中文GPT-3这个不支持英文,所以就测试下中文的专业文稿撰写能力
ChatGPT
中文GPT-3
GLM-130B
这个case比较难对比出来,ChatGPT效果略好一些,但是生成长度有点短了,基本打成个平手吧
文案生成
ChatGPT
中文GPT-3
GLM-130B
文案生成这个case来看,还是ChatGPT略胜一筹, ChatGPT > 中文GPT-3 > GLM-130B
理论知识
ChatGPT
中文GPT-3
GLM-130B
理论知识生成这个case,差的不是特别大,给到生成内容更多的GLM-130B, GLM-130B > ChatGPT > 中文GPT-3
对联生成
ChatGPT
中文GPT-3
GLM-130B
对联生成这个case,ChatGPT有点差了,没有直接给出下联, 中文GPT-3 > GLM-130B > ChatGPT
菜谱生成
ChatGPT
中文GPT-3
GLM-130B
菜谱生成这个case,中文GPT-3和ChatGPT都还可以,但和原本的做法还是有一定差距,凑活能吃吧。。。
ChatGPT > 中文GPT-3 > GLM-130B
推理生成
推理能力是很好的测试大模型是否只是数据驱动的一个场景
ChatGPT
中文GPT-3
GLM-130B
推理生成这个case,中文GPT-3和ChatGPT都回答对了,中文GPT-3 = ChatGPT > GLM-130B
词语解释
ChatGPT
中文GPT-3
GLM-130B
词语解释这个case,ChatGPT和GLM都回答对了,而中文GPT-3更多的是在说怎么能够做到事半功倍,所以:ChatGPT = GLM-130B > 中文GPT-3
标题生成
ChatGPT
中文GPT-3
GLM-130B
标题生成这个case,中文GPT-3效果更好一些,生成的标题比较短,也比较高质量,中文GPT-3 > ChatGPT > GLM-130B
国内大模型差在哪里
对比下来,国产大模型和ChatGPT的差距还是不小的,不管是从生成的准确度,以及答案的体验上都更好一些。那么ChatGPT优势在哪里,网上也有很多老师做了一些点评,其实已经很全了。我这里也写下个人的感受:
- 数据。我这边个人最大的感受就是数据,这个数据不是指无监督的数据,也不是下游数据集的那种标注数据,而是真正human feedback的数据,不管是无监督还是下游标注数据,其实和人的query方式或者人的输入形式都不一样,所以human prompt input或者human instruct input很重要。
- 新的训练范式。之前预训练+finetune的范式已经不适合于大模型了,大模型的能力绝对不止于下游任务的finetune。这个其实是网上很多老师都提到的,新的预训练+预精调+RLHF,在无监督预训练得到的大模型基础上,收集human feedback数据之后,进行human label,然后无监督数据训练的大模型在标注的数据上进行预精调。预精调之后,再对sampling 生成的结果利用强化学习RL去把人类偏好的答案前置
- RLHF。引入human feedback的强化学习确实起到了一些作用,可以让模型不断的能够迭代学习升级,这个确实是解决了之前大模型的一个痛点,之前大模型训练完成也就基本结束了,想要再优化很难而且也不知道从哪个角度去优化,RLHF无疑是给大模型长期持续优化提供了一个指明灯。
当然,ChatGPT也不是无所不能,他也有这很致命的缺点,比如知识性比较差,而且有时候答案缺乏营养,这其实也是知识的体现,如果能把这个解决了,那真的是可以通过图灵测试了,这会不会是GPT-4呢?
小结
国产大模型还是有很长的路要走,之前小编一直的观点是中文社区的数据质量比较差,也比较杂,很难像英文大模型那样有一个那么惊艳的效果,但从ChatGPT来看,数据不是问题,中文大模型也是能够训出一个高质量的。用一句话送给自己,也送给在这个大模型赛道上努力的朋友:道阻且长 行则将至 行而不辍 未来可期