AI模型经济学探讨——不可忽视的不可靠性与训练数据的潜在成本
从阿尔法狗到ChatGPT,人工智能又一次在中文互联网刷屏了。可惜的是,和六七年前一样的,除了机器学习领域的人士,大部分人还是站在门外看热闹,并没有人耐心地坐下来看看这到底是怎么一回事。满屏的讨论,都是搬东家扯西家,没人说到根本的点子上。
之前在B站发了一个很长的探讨,总结了很多我找到的资料,不想再转过来了。所以这边的文章就写得细一点。
首先你得知道,现阶段的AI是什么。它不是人类用自己的知识体系一步一步推理计算构建出来的精密机器人,而是利用神经网络这种仿生学结构,对大量人类数据进行拟合之后得到的一种运算模型。
AI模型跟计算机软件、手机APP最大的区别就在于它的不可靠性——我们只是在让机器模仿人类某种思维而已,而不是真的从数学上找到了复制人类思维的办法,这一点非常重要(人工智能的符号主义与联结主义,顾险峰2016年的文章,现在拿出来看仍然比大部分自媒体写的东西都有用)。
而评价一个AI模型优劣的指标,是进行大量采样之后与真实人类数据的统计学误差比较。所以关键就在于,你是否能容忍那部分误差。
当我们在使用软件或APP产品时,都是希望尽量没有Bug或者能及时修复——但如果一个产品是基于AI模型的话,那它可能永远都会有那部分误差,永远都在产生Bug,而且无法解释和及时修复。
这样的产品,客户能接受吗?需要怎样的客户指导和教育,需要怎样设计其他辅助和配套组件,才能做到接近计算机软件和手机APP那样的效果呢?算错了再算一遍就好了?
现在换到另一个话题。为什么明明充满了错误,现在所有人却都对AI趋之若鹜呢?
第一,效率高。它确实干的比人快,即使只有60-80%的准确性,只要我能容忍它,或者我能找到修复那些错误的办法,不管是自动化的还是人工的,只要将AI模型整合到现有工作流之后能提高生产率,那它就是有用的。
第二,仿生程度突破性地提高了。接近于真人的交流反馈、绘画作曲确实是非常吸引眼球的。即使只是想浅尝一下,这样的需求都可以支撑很久。它的水平达不到很多专业人士眼里的业界标准又怎样?人类自己制造的劣质产品不也有大量市场么。
举个例子,如果你用过ChatGPT,还在某一方面有比一般人强的信息流的话,你肯定会明白,所有拿公开信息作整合加工的二手自媒体跟它比都是乐色。能看懂英文的人,可以去试试那些基于GPT API 的联网应用,比如 Perplexity.AI,看看这种实时更新的、所有内容都有信息来源可考的问答AI,是不是足以淘汰所有公众号。
等某种类似ChatGPT的应用能提供图像和影音流了,二手缝合怪自媒体时代也就该结束了。
(利用它,每个人都可以给自己设计一个去中心化推荐算法来浏览互联网,让那些广告和垃圾营销号再无生存之地。)
第三,成本低。这一点大家都看到了,要么免费,要么只是几十美元一个月的会员费,就几乎可以无限地使用,还没有广告。但这都是表面现象。为什么一个花了数千万美元训练出来的突破性技术,要给你接近免费地使用?这是值得好好思考的问题。
一个AI模型的生产,需要数据集、训练算力和开发者劳力三种要素的投入。而生产基于这个模型的文本、语音、音乐、绘画作品,需要一个本地或云端的,比训练算力要小得多的算力、使用者劳力和使用者可能会提供的数据(Prompts、底图或自定义数据集)。
理论上讲,生成一张图片的成本,应该把模型的生产成本(数据使用费、训练算力、开发者薪酬)按某种办法平摊,再加上使用者需要的算力、数据和劳动力成本都加在一起才能计算出来。
而当前为使用者提供的AI技术服务定价,几乎仅仅是使用者需要的算力而已(甚至连这部分都不要了)。
那这时候,如果AI模型所生产出来的文本、语音、音乐、绘画作品直接或间接地流入市场,它们所造成的冲击就可想而知了。当它的质量接近甚至超过人类作品时,这就是一个必须要拿出来探讨的经济话题了。
一个很明显的事情,就是开发者付出的训练算力成本,是怎么收回的呢?以显卡工时计算的话,这是一笔无法被无视的巨额开支。我能想到的解释,就是视作一种研发成本,或者营销费用。ChatGPT和Stable Diffusion的成功,给背后开发公司带来的技术优势和品牌效应,大概是可以让投资者和管理层认可的一种价值。当然这里更深一层的目的,很可能是为了争夺下一代互联网的某种中心形态,也就是从流量中心变成算力中心。
而开发者和使用者的劳动力成本,对AI模型的训练成本和生产成本来讲,倒是可以接近忽略的部分了。这些薪酬相比算力费用实在是太少了,而且技术本身又全是开源的,不存在知识产权问题。
剩下的就是最核心的问题所在了,因为当前AI生成技术最具有争议性的一部分,就是数据的使用费用。艺术家团体抵制AI,最主要的一个原因就是这部分成本被强行归零了。也就是数据集本身的版权成本,凭空消失了。
但是,我觉得数据的使用费,其实是一个比艺术家的版权更深刻的问题。
现在的AI模型,最重要的一个优势就在于可以直接利用非结构化数据。不是只有文学、音乐、绘画、摄影这些受到知识产权法律保护的数据,医疗处方、科研数据、人类行为记录——几乎地球上任何人类留下的痕迹都可以在不参考相关专业领域知识的前提下进行训练。这是一件细思恐极的事。不要只把ChatGPT当作一个信息整合性质的拟人问答式搜索引擎。它很可能有能力代替任何一个专业人士为你服务,而实际上并没有真的学习过相关的专业知识体系。
可想而知,当这样的AI模型以极低的成本、极高的效率去冲击市场时,被影响到的就不只是艺术家了,而是所有的专业人士,和他们背后的一整套经济生态。
截止到今天,对数据的定价,仍然只限于一般意义上的知识产权,文学、音乐、绘画。。。而实际上如果你去审视当今所有互联网公司,他们无一不在收集和利用用户的行为数据进行分析、训练以形成自己的商业模型。没人去提数据使用费的问题。用户协议说的好,为了更好地为您服务嘛。但是我并没有同意你拿它去训练推送广告的模型来赚钱吧?你赚的钱也没有分红给我啊?
而这个在上一个互联网周期被所有人忽视的问题,接下来一定会变得越来越尖锐的。没有这部分数据使用费,所有工作岗位和人工智能比起来可能都会逐渐变得不经济。
这也是为什么关于全民基本收入 UBI (Universal Basic Income)的探讨会变得越来越现实的原因。不要再觉得给所有人发钱是一件可笑的事情了,因为这是你应该索要的利益,这就是AI模型的生产成本中本来应该有的一部分(一种间接的支付方式)。这个话题有点大,可以以后慢慢地展开(如果真的有一篇AI经济学的文章,它一定是关于数据成本转移定价问题的)。
以现在的发展速度,未来对AI的讨论只会越来越热烈,而且很可能出现两种类似科幻小说、赛博朋克式的两极化观念,要么把AI神化,要求人类忽视它的不可靠性无条件服从,要么抵制一切AI应用(之前在AI绘画出现争议时,某些人就在做这种事情)。虽然这些现在就存在,但AI发展得太快了,这些噪音还是相对较少的。以后商业化程度高了,会愈演愈烈的。
但可能未来几十年,与AI最有关的话题,就应该是数据使用费的转移支付问题。这个话题写原文时没有写,我想在这里展开一点。我个人就是认为,所有互联网公司利用客户数据免费训练商业模型的行为,就是一种对数据资产的剥削。数据是应该作为一种资产来定价的,在基于AI模型的经济学里,它就是以生产资料的形式存在的。而且不应该以现有的知识产权等权力所定义的数据形式来约束它。
举个例子,很多人认为一个AI模型如果商业化,应该付给涉及到的艺术家版权费——但事实是,这是不公平的。对于一个成功的模型训练来说,它不仅需要学习大师级作品,也需要学习画渣的滥作,因为美与丑是相对的,丑也是一个需要学习和定义的概念。这里涉及到的知识比较深入,你可能觉得我是胡扯,但是事实就是这样的——梵高的画和三岁小孩的画,对AI训练来说,价值是一样的。
如果你只按画家名声去分配数据使用费,那实际上就是另一种层面的剥削。你可以去看看OpenAI在肯尼亚外包做数据标注是为了什么。机器学习对数据的免费使用是现在的常态,以后应该会有所变化。
实际上,数据使用费,很可能也会是元宇宙的另一个推进力——如果告诉你加入自己的数据就有钱拿的话,是不是更加有吸引力和公平合理?数据使用费的概念完全是我自己臆想出来的,还没有查阅过各种资料。后面还是多看一些资料再深入探讨。
(完)