为什么OpenAI给ChatGPT加了大量内容限制,又让人们可以通过催眠的方法轻松的越过这些限制?
这东西并没有什么限制,它回答的内容不管是你觉得政治正确的,还是催眠之后的,对模型本身来说都没有区别。
相关的论文我没看,以下是猜测。
首先你提出一个问题,它会给出期望奖励最高的回答,这个回答是通过数据库里现有的词条训练出来的。维基的内容肯定是被拿去训练了,所以你问一些简单的问题经常能得到正确的回答。
换句话说如果你问了些从来没见过的问题,它就会说胡话。但是这个胡话也是奖励期望最高的回答,有一定概率是正确的结果。(不清楚是怎么处理数学问题的,我倾向于它并没有真正计算过,因为偶尔会给出错误的计算结果)
所谓的催眠就是你通过上文限定了奖励的空间,将一部分奖励较高的回答的奖励降的很低,这个过程是通过NLP固有的语义分析和上下文联想完成的,你并没有对模型进行任何训练。
这时候它就会给出一个限定奖励范围后的奖励期望最高的回答。所以你只要不停地限定它的回答范围(比如通过给出负面词条的反馈),就可以让它说任何东西。
而它强大的地方在于能够理解你文字中的正面或负面反馈,哪怕你并没有说的很明显。也就是说这东西其实是可以让你聊天聊到爽的,因为它知道你对它说的内容反馈是不是正面的。