秒懂!ChatGPT究竟如何被训练出来的?
ChatGPT如此强大
究竟是如何被训练出来的呢?
ChatGPT官网最新抛了一张图
告诉大家
我是这么干的,分三步走
第一步,教ChatGPT如何回答问题
最开始,ChatGPT其实像个小孩
智商并不高
比如你问它一个问题
↓
一个问题,可能出来A、B、C、D...个答案
其实GPT很难理解人类蕴含不同意图
也很难判断哪个答案质量更高
如何引导GPT输出更高质量的答案?
这个环节就需要一个人类老师入场了
这个岗位叫人工标注
找人类来思考这个问题该怎么答
并让人类提供高质量答案
就是让人类打个样,告诉GPT如何回答
回到刚才那个问题
老婆和老妈掉进河里,我该救哪个?
人类老师会告诉它
↓
据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。时薪1.32~2美元,9小时阅读并标注至多20万个单词量。
诸如此类
人类老师耐心地日复一日地
教导它人类的喜好
但是,世界问题是无尽的
不是所有的问题,都需要人工来答
只需要几万个问题足够了
人工提供答案的核心目的
不是为了答题而答题
而是让chatGPT知道人类的喜好
并让它后期进行模仿
人类老师把这些人工标注好的数据
喂给ChatGPT
进行监督学习(supervised learning)
监督学习的目的
是让GPT 从过去标注的数据中学习
并将学习的结果应用到新数据中
到了这里
GPT初步能够理解人类的真实意图
并根据这个意图给出相对高质量回答
最后形成各种语言策略(SFT模型)
SupervisedFine-TuningModel
但是,这远远不够
第二步,训练奖励模型,教ChatGPT如何更高质量地回答问题
到了第二步
系统会随机抽取一批新问题
这些问题大部分和第一阶段类似
这时候,ChatGPT
会生成了N个不同的答案,比如
↓
这时候,伟大的人类老师再次上场了
人类老师对N个输出答案质量
进行综合排序
排序的参考维度有很多
比如:关联性、法律法规、暴力、种族歧视等
然后利用人类老师的标注过的数据集
包括问题、答案、人类打分
来训练一个重要的模型
↓
【Reward Model-奖励模型】
即RM模型
这个模型有点像卡拉OK的打分系统
唱完一首歌,给你打分
RM模型对每个答案进行打分反馈
这让ChatGPT越来越能懂人类深层意思
不断打分,不断精进答案质量
到了这一步,其实还不够
如何让ChatGPT摆脱人类有限的指导
实现真正意义上的海量自我学习呢?
第三步,采用PPO强化学习算法,持续优化奖励模型,让ChatGPT持续自我进化
这个阶段不需要人类老师了
要脱离人类老师
由机器自动检查自己的学习成果
并不断做出SFT微调策略
如何自学呢?
具体这么来干
这时候,系统随机采样一批新的问题
一定是新的问题
喂给LLM(大型语言模型)
用于提高LLM的新知识的泛化能力
这时候,通过PPO模型生成答案
PPO(Proximal Policy Optimization)
是强化学习的核心算法
再把答案给到已训练好的RM奖励模型
让RM对答案质量进行评分score
这是标准的强化学习过程
这就相当于自学了
自己给自己出题,再对答案
根据答案,微调策略
鼓励LLM模型学习新知识并给出高质量答案
……
然后不断重复第二和第三阶段
每一轮迭代都使得LLM模型能力越来越强
通过以上三步
一个强大的ChatGPT就被训练出来了
嘿嘿,训练到最后,会是怎么样?
有人类大V说,怕它有意识了