中国需要更懂中国人的ChatGPT,国内产学研三方必须“组队对抗”
作为 AIGC 的典型应用之一,ChatGPT 正以势不可挡的态势席卷全球。国内外科技互联网巨头纷纷入局。ChatGPT 爆火后,许多科技公司纷纷跟进,或将其整合进自家产品,或尝试开发类似的语言模型。
(来源:资料图)
从短期(目前的技术水平)和长期(技术成熟之后)的角度来看,ChatGPT 类的模型和产品到底有哪些典型应用场景?美国伊利诺伊大学香槟分校计算机系教授李博表示,目前搜索是一个比较热门的应用场景。
从短期来看,她觉得 ChatGPT 作为文章写作 Coding 生成的辅助查错工具还不错,但是还不能完全依赖 ChatGPT 来做回答和搜索,因为它的回答不能保证正确性。从长期角度来看,她认为 ChatGPT 可以和不同的 AI 模型工具结合,做更友好的自动问答系统、学习工具等辅助性工具。
有人认为 ChatGPT 的影响力不亚于互联网的诞生,它将带来下一次技术革命。据介绍,ChatGPT 是依赖大量语料训练出来的,所以它从某些 Task 和场景下来看有很优秀的表现,比如 Summarization、Dialogue 之类的,所以她对这项技术非常看好。不过她觉得,如果要长久发展并用于重要领域中,ChatGPT 的可信赖性保证、纠错能力等非常重要。
比如,ChatGPT 之类的模型目前仍存在一些根本问题,它会言之凿凿地给出看似准确的错误答案,或者在用户的刻意引导下输出本不应该输出的内容。
原因在于,ChatGPT 的训练数据本身就是大量现有语料,所以它生成数据的 Distribution 和现有的其实非常接近,所以在统计角度上很难判断。
不过,也可以使用一些水印的方式,但是目前水印的方式很容易被破解。所以区别 ChatGPT 生成文本还需要做更多功课,比如使用更有效的 Cryptography Based 的水印方式等。
解决这些问题是任重而道远的,毕竟 ChatGPT 是个纯 Data-driven 的大模型,之前模型存在的 Vulnerabilities 等问题它也都会有,所以从长远看来,我们还需要做很多事情。
比如:1)引入 Knowledge、Symbolic reasoning 等去强化他的逻辑性和正确性;2)设计更多好的 Supervision 使得模型可以有效学习正确的星系;3)设计更好的奖励机制;4)提出更好的数据清理整合方法;5)设计有效的解释机制,以便人们更容易 Debug 模型的输出。
还有一些研究指出,以 ChatGPT、Stable Diffusion 为代表的 AIGC 技术可能涉及到隐私和道德问题。由于 ChatGPT、Stable Diffusion 需要用大量数据来训练,所以会有泄漏训练数据隐私的问题等。
针对此,我们可以:1)用 Privacy-preserving 的方法来训练模型,但是一般会影响模型的准确性,而且大模型很难用 Differentially private 的方法来训练;2)可以生成 Synthetic Data 来训练模型,但这同样会损失一些模型准确性;3)可以用一些其他方法比如加上一些扰动,使得生成的数据离元数据比较远,目前已经有人用该方法来保护艺术家的 IP。
更多关于 Privacy Protection 的方法也值得研究,预计这会是一个非常有意思的领域。目前,李博团队在 Privacy-preserving model training and data generation 方面也有一些工作,其主要专注于研究 ChatGPT 在内的大模型的可信赖问题,包括安全问题、公平问题、以及优化大语言模型不要输出 Toxic Languages 等。
同时,该团队还和英伟达合作了 Retrieval-Augmented Visual-Language 大模型,以让模型可以利用 Vision 和 Language 的信息做有效的信息整合,以及 Retrieval-Augmented 9.5B 语言模型。
当然,中国做 ChatGPT 之类的模型也有自己的优势。澜舟科技创始人兼 CEO、AI 科学家周明博士认为,在追赶 ChatGPT 上,中国需要更懂中文、更懂中国、更懂中国人的 ChatGPT,在基于中文的认知智能赛道中,中国有换道超车的优势,国内产学研必须组队对抗,新技术、新研究一定要落到产业中,再通过产业反馈带动新技术、新研究的新一轮飞跃。
另据悉,澜舟科技将与中文在线共建 AIGC 技术在文学创作领域的辅助技术,探索在漫画、动画、视频等 IP 衍生业务领域的新型内容生产方式。
支持:Ren