ChatGPT等生成式人工智能的信息安全风险
2022 年 11 月末,由美国 OpenAI 公司开发的聊天机器人 ChatGPT 横空出世。这款生成式人工智能程序展现出接近于人类的表达与推理能力,一时间震惊全球。其活跃用户数在短短两个月内就突破一亿,成为了有史以来用户增长最快的应用程序。不过在各方不吝溢美之辞的同时,ChatGPT及同类产品也接连暴露出安全问题,引起了各国政府和企业的高度警觉,意大利政府甚至一度禁用 ChatGPT。从 ChatGPT 的惊艳表现来看,生成式人工智能很可能在不远的将来渗透到各行各业,然而若不能有效管控其安全风险,则可能反而给人类社会带来巨大灾难。有鉴于此,本文将从信息安全的角度探讨生成式人工智能的多种风险,以为其探索出一条更加安全的发展之路。
一
新兴安全风险此起彼伏
1.1 数据外流隐患日益凸显
自 3 月 31 日起,意大利数据保护局以侵犯数据隐私为由,将 ChatGPT禁用了一个月之久。在意大利带动下,美国、法国、德国、西班牙和欧盟等国家和组织也纷纷开始调查 ChatGPT 的数据外流问题。无独有偶,为防止敏感数据外流,微软、摩根大通、威瑞森、亚马逊、沃尔玛和三星等行业巨头也相继限制或禁止员工使用ChatGPT。根据网络安全公司Cyberhaven的调查,至少有 4%的员工将企业敏感数据输入 ChatGPT,且敏感数据占输入内容的 11%。看似比例不高,但 Cyberhaven 的统计表明 0.9%的员工造成了 80%的数据外流事件,同时上亿的用户基数意味着 11%的输入内容也仍然是个天文数字,可见 ChatGPT 引发的数据外流问题已不容小视。
海量的数据造就了 ChatGPT 等生成式人工智能,而为确保其回答符合人类预期,来自人类的反馈更是其中的重中之重。事实上,在意大利施加压力前,OpenAI 公司一直默认将用户输入的内容用作训练数据,导致大量敏感数据落入OpenAI公司之手。以亚马逊公司为例,其之所以禁用ChatGPT,就是因为发现 ChatGPT 生成的内容与其保密数据高度相似,这显然是有员工将保密数据输入 ChatGPT 所致。即使 OpenAI 公司不会滥用用户数据,第三方也完全可能以巧妙的提问方式绕开 ChatGPT 的过滤机制,进而获取这些敏感数据。在多方压力下,OpenAI 公司被迫于 4 月 25 日为 ChatGPT添加了禁止用用户数据训练人工智能的选项,不过将信息安全寄托于OpenAI 公司的自律并非明智之举。何况从棱镜门等事件来看,美国政府很可能会强迫 OpenAI 公司提供用户数据。所以在各国出台严格的数据使用法规和数据本地化要求之前,生成式人工智能始终都存在严重的数据外流风险。
1.2 虚假信息推高决策风险
ChatGPT 面世不久后,许多用户就发现其有时会言之凿凿地提供虚假信息,这使人们对其可靠性产生了怀疑。举例来说,英国《卫报》称有多个团队向其求证某些文章,结果发现这些《卫报》记者署名发表的文章其实是由 ChatGPT 虚构的;一名澳大利亚市长发现 ChatGPT 生成了关于他的虚假犯罪指控,于是愤而向 OpenAI 公司提起诽谤诉讼;谷歌公司同样深受其害,其人工智能聊天程序 Bard 在发布会上答错一道简单问题,导致公司股价大跌,市值瞬间蒸发近 1700 亿美元。开发方对生成式人工智能的这一缺陷也心知肚明,OpenAI 的官方网站就明确承认 ChatGPT 有时会给出看似可信的错误回答。考虑到因信息不实而作出错误决策的风险,虚假信息或许是阻碍生成式人工智能大范围商用的最大技术难题。
生成式人工智能之所以会提供虚假信息,除训练数据本身有误或已经过时外,更重要的原因是它们并非真能理解人类语言,也并不具备人类的推理能力。其对答如流的背后,实质上是通过海量训练建立了字词句之间的关联概率模型,从而能根据用户提问逐字计算出概率最高的表述方式。这一原理决定了生成式人工智能无法判断信息对错,自然也就难免提供虚假信息。为减少虚假信息,OpenAI 等开发方一直在通过基于人类反馈的强化学习(RLHF)等人工手段来完善过滤机制,其 GPT-4 的真实性评分据称就比 GPT-3.5 高出 40%。然而用户可能提出的问题无穷无尽,训练数据也会随时间推移而过时,因此现有的任何方法都无法彻底解决虚假信息问题。可想而知,若没有人类把关,生成式人工智能将很难用于医学和投资等众多需要准确信息的领域。
1.3 内容偏倚冲击意识形态
如果说虚假信息还只是让少数用户失望,那么 ChatGPT 在生成内容上的倾向性或者说偏倚则已然激怒了不少用户。早在 2 月间,就有用户发现ChatGPT 可以赞美拜登,但不能赞美特朗普;而在美国炒作所谓中国气球事件期间,中国用户也发现 ChatGPT 支持美国击落中方气球,却不支持中国击落美方气球。另有研究表明,ChatGPT 在政治、种族、性别和宗教等话题上普遍存在偏倚,而 15 项政治倾向测试的结果表明,ChatGPT 总体上倾向于所谓的左翼自由派观点。这种内容上的偏倚自然激起了对立群体的愤怒,美国公司 TUSK 就因此推出了右翼人工智能GIPPR,以便向用户宣传保守派观点。由此看来,未来很可能会出现立场各异的多种人工智能,从而加剧整个社会的对立情绪和政治极化。
生成式人工智能的内容偏倚来自于多方面的影响,包括训练数据本身就存在某种倾向,使用的算法更侧重于某些特征值,以及人类数据标注员的主观判断等等。虽然 ChatGPT 等人工智能都标榜中立,但既然人类社会本身都对很多问题存在分歧,立足于人类知识的人工智能也就必定存在倾向性,而这种倾向性则会对用户的意识形态产生潜移默化的影响。OpenAI等公司并未对内容偏倚问题坐视不理,通过不断修正过滤机制,目前ChatGPT 在大多数时候都拒绝回答敏感话题,至少是拒绝批评特定对象。然而需要注意的是,这些修正措施主要针对在欧美引发争议的话题,其它许多意识形态则不在保护之列。从这个角度看,ChatGPT、Bard 和 BingChat 等生成式人工智能客观上已成为了美国的认知战工具。
二
传统安全风险依旧严峻
2.1 系统安全漏洞不容忽视
3 月 20 日,一些 ChatGPT Plus 用户惊讶地发现其用户界面上出现了其他用户的敏感信息,其中包括聊天记录、姓名、电子邮箱和支付地址等。此次事件导致 OpenAI 公司一度紧急关闭 ChatGPT,经过调查,OpenAI 发现是其客户端开源库 redis-py 出现问题,以致部分用户的请求被错误地返回给其他用户。尽管 OpenAI 声称此次事件仅涉及1.2%的 ChatGPT Plus 用户,但考虑到 ChatGPT 的庞大用户群,涉事用户恐怕不在少数。此外也有研究人员发现 ChatGPT 存在严重的 Web 缓存欺骗漏洞,黑客可利用该漏洞窃取其他用户的 ChatGPT 帐户。网络安全公司 Check Point Research 还发现了更加危险的情形:有黑客修改了 Web 测试套件 SilverBullet 的配置,使其能对ChatGPT 帐户进行撞库攻击或暴力破解,从而大规模窃取 ChatGPT 帐户。
虽然生成式人工智能对大多数人来说属于新鲜事物,但其采用的仍是传统的安全架构和防御措施,所以和其它任何 IT 系统一样,人工智能也难免存在安全漏洞。从这层意义上讲,不论 OpenAI 等开发方如何减轻虚假信息等人工智能特有的安全风险,一旦黑客利用某些软硬件漏洞入侵系统,人工智能的安全就无从谈起。值得警惕的是,不同于公开的社交平台,生成式人工智能很可能会收集到大量高度敏感的隐私信息乃至保密信息,因此其被入侵的后果恐怕不亚于关键基础设施遭到入侵。OpenAI 公司已注意到此类问题,并为此制定了最高奖励 2 万美元的漏洞悬赏计划,希望借助第三方的力量消除安全漏洞。但与此同时,媒体也在暗网上发现大批俄罗斯黑客开始讨论如何入侵 ChatGPT。可见作为近年来最热门的网络服务,生成式人工智能恐将长期面临严峻的网络攻击风险。
2.2 助推社会工程学攻击浪潮
3 月 27 日,欧洲刑警组织发布《大型语言模型对执法的影响》报告,其中强调了犯罪分子利用生成式人工智能发动社会工程学攻击的风险。欧洲刑警组织的这一论断并非虚言,早在今年 2 月,印度警方就发现有犯罪团伙使用 ChatGPT 来撰写用于诈骗的电子邮件和短信;4 月,中国警方发现诈骗分子利用人工智能实时替换视频聊天中的容貌和声音,导致受害者被骗取 430 万元。当前人工智能生成的内容与人工内容时常难以区分,因此很难统计究竟有多少社会工程学攻击使用了人工智能。但根据网络安全公司 Darktrace 的调查,在 ChatGPT 热度持续攀升的 2023 年 1 月至 2 月间,欺骗方式远比过去复杂的新型社会工程学攻击数量猛增 135%,从侧面反映出 ChatGPT 很可能已被广泛用于社会工程学攻击。
生成式人工智能的最大特点就是其生成内容高度接近于人类,加之远超人类的生成效率,被犯罪分子用来发动社会工程学攻击完全是意料之中,甚至不如说是一种必然趋势。以往用户还能根据语法和常识错误来辨别钓鱼邮件,如今生成式人工智能不但能生成真假难辨的欺骗性文本,甚至还能根据用户的询问和身份作出针对性回复,从而大大提升犯罪效率。更令人担忧的是,人工智能的生成内容已不局限于文本,5 月间就有人生成了能翻唱歌曲的孙燕姿虚拟形象,其真实程度令孙燕姿本人都深感震惊。正如前述案件所揭示的那样,一旦犯罪分子拿到了目标人员的大量音视频资料,就能训练出足以以假乱真的虚拟形象,然后用于诈骗或传播恶意信息。不幸的是,目前没有特别有效的方法来应对基于人工智能的社会工程学攻击,所以不难想象,在生成式人工智能的助推下,全球很可能会掀起新一波社会工程学攻击浪潮。
2.3 沦为恶意软件开发工具
除提供信息外,生成式人工智能还具备一定的编程能力,因此《大型语言模型对执法的影响》也提到了用人工智能开发恶意软件的风险。目前尚无迹象表明有任何知名恶意软件出自人工智能之手,但不少研究都证实ChatGPT 确实能够编写恶意软件。以 Check Point Research 公司于 2022 年12 月开展的研究为例,研究人员仅凭 ChatGPT 和 OpenAI 公司的另一款人工智能编程工具 Codex,就成功生成了一封可植入反向 shell 型恶意软件的网络钓鱼邮件。该研究的最大意义,就在于研究人员从头到尾都没有编写任何代码,只是单纯用自然语言向人工智能提出编程和修改需求,便完成了整个工作。许多类似的研究也表明,人工智能虽难以编写出隐蔽、对抗和反调试等高级功能,但其生成的恶意软件的确可以运行。
OpenAI 等开发方当然考虑到了生成式人工智能被用来开发恶意软件的可能性,所以在目前的过滤机制下,ChatGPT 会直接拒绝编写某某恶意软件一类的要求。问题是程序本身并无好坏之分,比如加密程序虽被用于勒索软件,但也可用于合法保护数据,所以 ChatGPT 不会拒绝编写此类程序。这样一来,黑客便可将恶意软件的编程过程分解为若干步,然后逐步要求 ChatGPT 编写相应功能。用人工智能开发恶意软件的研究基本都采取了这种变通方式,只是有时仍需以巧妙的措辞来说服人工智能某些程序是安全的。不过从这些研究来看,用户自身仍必须懂得编写恶意软件,否则根本无法有效引导人工智能,这意味着缺乏相关知识的用户仍难以开发恶意软件。此外与人工智能生成的简陋程序相比,暗网上出售的恶意软件要复杂和成熟得多,所以专业黑客也不会费神绕开过滤机制去开发这些破烂。总而言之,生成式人工智能虽确能编写恶意软件,但尚不足以大幅强化恶意软件的开发能力。
三
启示与建议
3.1 建立张弛有度的监管机制
随着生成式人工智能的负面影响逐渐浮出水面,各国均意识到制订相应的监管法规已刻不容缓,为此纷纷启动了立法进程。与其它国家相比,中国的步伐明显更快,尤其是国家互联网信息办公室于 4 月 11 日发布《生成式人工智能服务管理办法(征求意见稿)》(以下简称《办法》),使中国成为第一个针对生成式人工智能立法的国家。《办法》涉及到资格准入、算法设计、训练数据、内容导向、用户隐私和知识产权等诸多方面,其既开宗明义地支持生成式人工智能的健康发展,也高度重视相关风险,反映了中国政府对生成式人工智能的深刻洞见。除中国外,欧盟的内部市场与公民自由委员会也于 5 月 11 日推出《人工智能法案》草案,而美国参议院据称同样在制订相关监管法规。
上述监管法规是规范还是扼杀生成式人工智能的发展,关键将取决于监管机制是否张弛有度。举例来说,虽然各国皆规定不得生成虚假信息,但从生成式人工智能的原理来看,彻底杜绝虚假信息并不现实。因此相关法规虽应要求开发方尽量避免生成虚假信息,但也不宜做出过于严苛的规定,而是应把重点放在及时处理所发现的问题上(比如更正或删除虚假信息,甚至重新训练人工智能模型等),并对故意传播虚假信息的人员进行追责。相反,由于数据安全是国家安全的重要一环,而为了方便工作,难免有用户将敏感数据上传至人工智能,因此监管法规应在数据本地化方面作出严格规定,以免因数据外流而危及国家安全。至于用户隐私和数据标注等其它方面,也不宜一刀切,而是应根据人工智能的特点作出适当安排。此外作为一种新生事物,生成式人工智能的监管过程中很可能会出现意料之外的问题,所以其监管机制也应为及时调整监管措施留出余地。
3.2 以技术手段巩固信息安全
虽然监管机制不可或缺,但从生成式人工智能模型及其用户群的庞大体量来看,人工手段更适合事后解决特定问题,技术手段才是从整体上确保信息安全的关键所在。具体而言,为保障系统安全,应像关键信息基础设施那样,为生成式人工智能系统建立由防火墙、入侵检测与防范系统、加密信道以及端点检测与响应工具等组件构成的网络防御体系,并及时为各类子系统更新安全补丁;为保护个人隐私,开发方应尽可能采用可自动标注的合成数据来训练人工智能模型,以减少因抓取网络数据而泄露他人隐私的可能性;为阻止数据外流,生成式人工智能应为用户提供不吸收用户数据的隐私模式,并按照数据本地化要求,将用户信息留存于所在国境内;为提升响应效率,开发方乃至政府有关部门应在互联网上建立公共上报系统,以供用户和开发方及时上报各类问题。
除上述风险外,生成式人工智能的最大信息安全风险,恐怕还是用户恶意使用其生成的内容。举例来说,用户可将生成内容用于网络钓鱼和电信诈骗,利用刻意引导的生成内容传播不良思想,甚至直接用人工智能控制大量网络帐户来发动认知战。好在除加强监管外,数字水印和内容检测器这两项技术也能在一定程度上减轻这些风险。目前基于生成式人工智能的图像生成器 Stable Diffusion 已能利用图像分解算法添加隐形水印,从而检测出由其生成的图像。然而由于文本中的信息远比图像单纯,用户很容易察觉插入文本的水印并将之删除,所以尚无适用于 ChatGPT 的数字水印。内容检测器则更加成熟,目前市面上至少有十余款产品,其中的佼佼者Turnitin 更是号称准确率达到 98%。这些检测器普遍采用了语言统计学方法来分析文本,因此文本越长,检测效果越好。不过也有许多用户发现包括Turnitin 在内的检测器时不时会发生误判,所以用户需谨慎对待检测结果,尤其不宜将其作为考试等重要事项的唯一评判依据。
3.3 警惕中长期地缘政治威胁
就信息安全而言,除数据外流等直接风险外,美国的生成式人工智能还将在中长期内对各国构成地缘政治威胁。首当其中的一点就是美国基本支配着生成式人工智能的整个产业链,其不仅利用先发优势暂时垄断了这一庞大市场,还直接或间接掌控着英伟达和联发科等关键芯片生产商。以目前最适用于生成式人工智能的 A100 芯片为例,仅微软和谷歌公司就分别拥有数万枚该型芯片,而中国最多只有一家机构拥有 1 万枚以上的 A100 芯片。所以尽管中国的生成式人工智能发展迅猛,但受制于美方制裁,今后仍可能出现会后劲不足的局面,其它国家的人工智能发展之路则更加艰险。对于这一问题,除了设法开辟间接采购渠道以规避制裁外,还可通过政策鼓励国内厂商用性能较弱、但尚可购买或制造的其它芯片来发展生成式人工智能,以牺牲一定性能为代价,优先确保国内的人工智能生态体系不会受制于美国。
此外作为认知战的个中高手,从长期来看,美国必然将生成式人工智能这一利器投入认知战。由于 ChatGPT 等产品存在严格的过滤机制,美国不会直接使用这些产品,而是多半会利用 OpenAI 等公司的技术来训练专用的人工智能,然后用这些不受限制的认知战人工智能来操纵舆论。认知战的主战场通常是主流社交平台,全球首富马斯克就曾怀疑推特的数亿用户中有 20%都是机器人。如此巨量的账号一旦被生成式人工智能掌管,就能在极短时间内发布大量煽动性内容,从而显著影响舆论风向。为防范这一风险,各国不但应要求各社交平台实现数据本地化和实名制注册,还应对其进行大数据分析,从中筛选出认知战特征明显的用户群,比如注册时间高度接近,IP 属地频频变动,月均活跃程度明显超出正常水平,经常在很短时间内群起对特定政治或社会问题(尤其是长期乏人问津的陈旧问题)发表背离主流舆论的意见,表达内容高度一致,频密地相互点赞,几乎不与人争辩,以及在不同话题下展现出相互矛盾的身份信息等。只要能及时清除这些特征高度集中的认知战帐户,并禁止相关手机号频繁重新注册,再强大的人工智能也将失去用武之地。
供稿:三十所信息中心