万字长文:产品经理视角下的AI绘画全解析
最近的AIGC浪潮,本质来源于两项技术:一是ChatGPT所代表的GPT、RLHF、Prompt等技术点,另一个则是AI绘画背后的Diffusion技术。本文作者从Diffusion的技术原理、演进方向、商业落地以及其对相关职业的影响着四个方面,对Diffusion技术进行了详细的分析,对AI绘画感兴趣的同学,一定不能错过。
我从1月30日写系列第一篇的时候就提过,这一波AIGC浪潮本质来源两项技术:一个是ChatGPT所代表的GPT、RLHF、Prompt等技术点,另一个则是AI绘画背后的Diffusion技术。
2023年,只看这两项技术的影响力(除非有新的技术突破发生),其中GPT负责文本领域的狂飙,Diffusion负责图像领域的狂飙,两者合起来才是对内容生产领域完整的冲击。
那我们接下来我们正式开始,本篇文章讲述以下内容:
- Diffusion的技术原理科普(照旧通俗易懂)
- Diffusion演进方向(潜力在哪里)
- Diffusion商业落地分析(附带分析框架)
- Diffusion对相关职业的影响(附带分析框架)
一、Diffusion的技术原理科普
DIffusion(扩散算法),这是一种相对简单的自回归模型。如果说ChatGPT背后代表的LLM大语言模型的技术惊艳度是10,那么他可能只有5。
但他目前在图像领域,是当之无愧的王者,与文本领域的GPT隔江而治,二分天下。
接下来,我们用一种新的科普方法,请大家跟随我的思路,去看看这个令人赞美的系统级产品是怎么一步步产生,我会在中间穿插讲解每个技术概念。
旅程开始之前,我们敲下一个问题:如果我要让AI根据文字,给我输出图片,都需要什么技术?
第一步,计算机要能够处理图像
虽然我们天天在手机和电脑上看图片/视频,但计算机的理解和我们可不一样。他们的理解和人类在不同层次:
第一层,真实世界,专业点叫模拟图片,就是人类看到,观察到的图片。
第二层,数字世界,即图片的数字化。我们经常听到的分辨率400*400,就是数字世界的表达。这意味着这是一张由1600个像素构成的图片,每个像素点用0~255的数值来表示他的颜色。当图片被数字化后,计算机才能储存、编辑、理解、计算它。
例如下面这张图,右侧的每个数字空格,与左侧的每个像素点对应,空格里的数字则代表那个像素点的亮度,通过这样的转换,图片就被数字化了。
第二步,计算机能够画画
记住这句话:对计算机而言,画画是个数学问题,而非艺术问题。
我们人类画画大概的顺序是:我有个初步想法,然后开始勾勒线条,然后填充色彩。也就是画家先有个模糊想法,然后在绘画过程中,逐步逼近心中的作品。
而计算机的绘画逻辑则不同:他基于人类的命令,进行数学上的计算,遵从概率最高的选择,画出作品(是的!和GPT一样,又是在猜概率)。
在AI的眼中,猫不是猫,而是一个有椭圆轮廓,颜色上黄色、白色、黑色,中间有个两个褐色圆形(眼睛)的东西,就好比下面这些图。
但事实上这些图片是我为了方便你们理解放的,他其实并不严谨。在计算机里,他学习到的东西连上面这些黏糊糊一大坨的图像都还不是,他学到的就是一串数字的分布规律。
就像下面这张图一样,你相信下面这张图中,绿色点其实是一张手绘数字8的数学表达吗?所以我们大概有一种模糊的概念即可,不要强求去想象计算机画画的过程,那是很难理解的。
第三步,找到一个合适的算法模型来画画
1)Diffusion的前浪们
在整个AI技术的发展过程中,针对学习图像规律分布然后生成图像这件事情上,涌现出了许多模型,例如GAN,VAE,normalizing flow等,但他们都有着这样那样的缺点,最终被Diffusion打败。
以GAN为例子,这是Diffusion技术出现前,图像领域最火热的模型选择。
GAN(Generative adversarial network,生成对抗网络),他的逻辑很简单:我训练两个模型,一个叫生成器(打工仔),专门负责画图,一个叫判别器(老板),专门负责评审生成器画的图到底好不好。
如果生成器画得好呢,判别器就给他发奖金,如果画得不好,判别器就给他一巴掌。
于是生成器为了赚奖金,少挨巴掌,他就会努力画得更好(努力工作),但同时还会努力尝试骗过判别器,让他以为自己画得好(摸鱼)。
而判别器则反过来,他会不断提高自己对生产器产出的判断能力,只奖励真正好的,强烈打击不好的(老板的KPI审核)。
他们之间的关系就像银行制造真币的和犯罪团伙制造假币一样,相爱相杀,共同推动印钞防伪技术提升。
但是GAN存在着若干问题:
首先,这种双核成长不是那么稳定的,有时候甲方压倒乙方,有时候乙方压倒甲方,一旦发生这种情况,整个模型就会崩溃。
其次,他的判别器负责教育生成器好好作画,那么对使用的图片质量要求就很高,不然老师自己都错了,对学生的教育就更加无从说起。
最后,生成器也有问题,他特别怕挨打,所以生成图片是极其保守的,遵循的就是少做少错原则。所以你永远无法期待他画出一个戴着鲜花组成的眼睛的小女孩(只要你的训练集中没有类似图片)。
而VAE和normalizing flow也一样存在问题。
VAE的核心机制中,需要定义一个真实后验的值,但偏偏这个值是不可达的,只能用变分后验来逼近他。重点就是这个变分后验非常麻烦。
normalizing flow 的核心机制则要求模型是可逆函数(例如y=x+1可逆,因为y=2,那么x一定是1,而y=x²不可逆,因为y=4的时候,x可能是-2/+2)。
这让他在选择模型的时候往往不能用最好的模型,因为一些好的图像神经网络是不可逆的。这就让他在画画的时候,在图像的表达上存在弱点。
好吧,方法很多,但好像都有些毛病,怎么办法呢?
2)新生代力量Diffusion闪亮登场
Diffusion的原理表面上理解很简单(数学推导则非常复杂,我也看不懂):
- 前向扩散(Forward Diffusion Process),就是下图中的上半截,我们将用于训练的数据,随机添加噪点,一遍遍地添加,直到他变成一张全是噪点的图片。
- 反向扩散(Reverse Diffusion Process),就是下图中的下半截,我们让模型将这张全是噪点的图片,给我还原成一张清晰的图。
AI模型需要在这个加噪点去噪点的过程中,学习到绘画的方法。哈哈哈是不是非常不可思议,没关系,往下看详细介绍。
在这个过程中,AI模型的训练原理如下,我标了一二三四步,大家跟随我的一起看下方的详细解释。
①第一步,我们随机挑选一个噪点程度,顺便把这个程度数字化(向量化)。
②第二步,随机到的结果是噪点程度T=14。我们就给这张照片加上对应程度的噪点,让他糊掉(必须糊成14的程度)。
③第三步,把噪点程度的向量+模糊的图片一起放进神经网络,这个神经网络的学习过程和上面相反,上面是我怎么加噪点让他变成糊图,而他学习我怎么去除噪点才能让他变成美图。
④第四步,学习的过程中会让模型预测出我要去除的噪点(noise)是多少的。与此同时我们是知道真正要去除的噪点值是多少(毕竟是第一步,第二步中这个噪点是我们自己添加的)。所以AI的预测噪点值就可以去和真实噪点值比较,这个差值就是loss了,你可以理解为模型预测的偏差。
⑤循环训练,在刚开始训练的时候,loss是非常大的,但是我们的训练目标就是让loss变小,无限逼近于0。当loss成功变得非常小时,我们就成功了,模型后面每一次去做预测,都能非常准确。
当模型训练完成后,你下命令让他画画的时候,他就只会执行反向扩散过程了,即找出一张全是噪点的画,然后一步步去除噪点,直到生成作品。整个过程就像下面这张图一样。
From《Denoising Diffusion Probabilistic Model》
p.s 使用过AI绘画工具的朋友可能对里面的步长选项有印象,这个步长其实就是到底要求AI绘画预测多少次再出图。
理论上步长越长,图像就越不糊(去的噪点多了),质量也会越好(预测很多次,更准了)。
第四步,让计算机可以根据文字画画
在前面的步骤中,我们解决的只是让计算机画画,我们现在进一步解决让计算机根据文字画画。
我们首先面临的第一个问题是,计算机怎么知道文字和图片之间的关系呢?
比如下面这张图,我们一看就知道是牛油果,但计算机怎么知道这堆绿中带黄的东西是牛油果呢?
在这里我们再次遇到我们的老朋友OpenAI同学。他在2021年1月开源了CLIP(Contrastive Language-Image Pre-Training)。这个模型用了40亿的文本-图像数据来训练,确保计算机在文字描述和图像之间形成互通。
大家如果好奇这些训练数据长啥样,不妨稍微往上拖一拖看看牛油果。每张图片下会有这张图片的描述,这就是文本-图像对数据。
他的训练过程我就不多说了,和前面Diffusion的训练过程很像,AI的核心原理都是这样——你预测一个结果,我手里握着真实结果,那么这之间就会产生一个loss(偏差)。训练的过程就是让这个偏差不断变小,到最后AI每次预测结果就与真实结果几乎一致。
话归正题,OpenAI的这次开源,提供了一条多模态通道,让以文生图的效果得到进一步提升(以前不是没有类似的模型,但没有这个效果好)。
现在,当我们说画一个牛油果椅子,计算机就会将这句话通过CLIP转换成向量。并且,这个向量同时也是图像的向量,因为CLIP模型已经把图文拉到同一个维度上来理解了。
这就是让计算机根据文字画画的关键模块CLIP,他把文字表达与图片表达拉到一个维度上,使得文字Prompt能够进入Diffusion模型中,去约束图片的生成过程。
另外科普一个小知识点,当AI自己乱画,叫做无条件图片生成任务,当AI遵循我们的命令画画,叫有条件图片生成任务。文字是其中一种条件,除此以外还有音频(看音乐画图),图像(看图画图),姿势,结构等等。
第五步,计算机根据文字快速地画画
但这些还不够,否则AI绘画的爆火就不会从22年年初拖到22年7月了。
这是因为Diffusion虽然解决了GAN、VAE等其他图像模型的缺点,但他在诞生之初,其实也存在一个缺点:他的计算速度非常慢,出一次图动不动就是一个小时以上,很难全面推广。
这是Diffusion的工作原理造成的,因为他出图的时候,其实就是对着一张充满噪点的图反复去噪,这个过程不是一步到位的,可能要执行成千上万次,这就导致出图速度非常慢。
为此学术界做了非常多的努力,但最爆炸的成果来自EleutherAI团队所开源的Stable Diffusion。
他的解决点非常巧妙。大家还记得我们在第一步提到的真实世界→数字世界吗?事实上还有更深一层的世界——隐空间(latent space)。
这个概念在AI中非常重要,因为他能进一步压缩数据量级,让机器的训练、预测速度提升。比如有一张图片他的像素是512*512=262144个像素点。现在我在不丢失重要信息的前提下,把他拉到64*64的隐空间,那么复杂度仅有64*64=4096,是原来的1.5%!
那这个隐空间的原理是什么呢?请看下图的例子:
左右两张图片明明信息量差异巨大,但是我们看到右图却立马明白是什么意思(如果你不明白可以百度一下我全都要是什么梗)。
而隐空间(latent space)也是同样的思想,他会通过一些工具,对像素世界中的信息进行选择,只留下高质量、有价值的信息,而其余信息全部丢弃。在这种思想下,因为信息量级降低了,所以计算效率大大提升,但又不会丢失重要信息。
到了这里,我们终于凑齐了七龙珠,可以召唤神龙了!
大家结合我的步骤解释和下面这张图,一起来感受一下完整版Diffusion的工作原理:
①第一步,把像素级别的图片拉到隐空间(减少计算量)
②第二步,进行正向扩散,给图像加噪声(搞一张糊图出来)
③第三步,把Prompt一个牛油果椅子转换成向量,一起参与到这个过程中
④第四步,进行反向扩散,让U-net神经网络学习如何正确预测要去除的噪点,这一步会持续反复,直到U-net训练成功
⑤第五步,预测结束后,把图片从隐空间拉回像素空间,成为人类所能理解的图片
整个过程一环扣一环,所以我们可以发现,虽然核心是Diffusion技术,但CLIP、隐空间的应用也都非常重要,所有加起来才推动了AI绘画的爆火出圈。
二、Diffusion的的演进方向和潜力
这一部分我会列举目前比较主流的方向,作为技术篇的补充,但不会有太多的技术解释。
大家在理解基本原理的前提下,大概了解一下技术的变化趋势,避免将思维局限在当前的AI绘画形态上,影响对行业的商业判断。
p.s 我并未每个方向都非常仔细的去搜集数据,部分方向可能存在偏差,仅供参考。
1)可控生成
这是目前学术界发力最多的方向。
有体验过AI绘画的同学应该能理解这种烦恼:这张图还不错,但是偏偏某个细节差了点,我又没能力弄下来重新画,只能不停刷新,期望撞大运遇到完美的。
怎么解决呢?我们可以只替换出错的部分吗?当然没问题!
例如下面这张图,我对猫咪骑的单车不满意,我想换成小车,行不行呢?可以的,Prompt的过程中锁定原图,替换一下这个单词就行——这就是语义替换。
From《Prompt-to-Prompt Image Editing with Cross Attention Control》
这是怎么做到的呢?大家稍微往前回忆一点,我们说到让计算机根据文字生成图片,很关键的一个模块是CLIP来实现这种文本-图像的跨模态转化。并且文字Prompt还会持续约束着Diffusion的去噪过程。而这种可控生成其实就是在这里进行微操,从而实现类似的效果。
大家要特别关注下图中的右侧的Condition模块,他就是我们给Diffusion输入的条件,这里的条件可以是文字,图片、音频、空间结构等等,只是我们目前比较熟悉的应用是文字而已。
除此以外,你甚至可以文字+图两种条件一起上,一起来看看有趣的例子:
①文字+参考图,按照线框布局生成图片
②文字+参考图,限定边界生成
③文字+参考图,模仿人物姿势生成
2)加速采样(降低成本)
这方面非常好理解,不管是Diffusion的模型训练过程,还是上线后的预测(出图)过程,反向去除噪点都是一步步去除的。
这种逐步去噪是保证效果稳定的原因之一,但也制约Diffusion的性能成本。
而加速采用就是能够解决这个问题的方法之一,他大概做的事情就是——你要去除1000步才有好效果?我给你直接干到50步!
所以大家会发现,在去年底还有Stock AI倒闭的新闻,到今年就没有任何一家AI绘画公司出问题了。像意间、PAI这样的公司,靠广告收益+订阅其实也活下来了(至少不会盈亏失衡)。
3)更高的图片质量
如果读者中有从去年7月以来一直持续使用的朋友,会发现AI的产出质量越来越高。
抛开模型升级的原因不提,很大一部分提升来自更优质的训练数据。
这里面一方面来自用户的作品产出,当AI作品被下载,甚至上传到作品集市,那么相当于制作了一个正样本——这是好图,AI你快拿去学习。
此外,一些二维码验证,也在做这方面的数据积累。例如下图,模模糊糊,很明显是Diffusion去噪过程的中间产物。
来自Discord的验证码
最后,一些公司已经在做专门的定向微调优化了。目前大家感受到的可能是AI绘画工具上多出了不同绘画风格可选,例如蒸汽朋克、中国画、水墨、动漫等等。
但我更期待的是是否有一些正在进行的垂直商用的图集训练。例如给他灌入海量LOGO数据,他在LOGO设计方面就会显著提升,这将有助于AI绘画真正踏入商用领域。
4)更强的语义理解(文本-图像)
目前体验上另一个卡点是,有时候AI不是画不出来,他是不知道我要什么。我明明说要一只粉红色的老虎,但他可能以为是粉红色背景+老虎。这方面的难题就需要靠语义理解去处理。
比如前面提到的CLIP,用40亿文本-图像数据训练出来的。如果我们用一个更强大的模型去替代它,就能够提升绘画过程中的语义准确性(其实我之前看到新闻有一个比CLIP更强的跨模态模型出现了,但是很抱歉没找到当初的资料,所以这里列不出例子)。
又比如你干脆用ChatGPT来桥接到AI绘画上,这也是一种加强语义理解的方式。当然这需要ChatGPT一起配合,目前ChatGPT的知识中应该还没有Prompt怎么写更合适的知识。
5)多模态的发展
Diffusion的应用正在扩展到音频、视频、3D领域,但暂时只是一种趋势,落地商用的demo比较少。我这里放几个图和链接给大家参考一下:
视频通过这个链接前往查看https://video-diffusion.github.io/。毕竟视频类的demo,不亲自去看,只看我这里贴图是感受不到的。
3D建模(点云图)的效果可以看看下面这张图:
From 《Diffusion Probabilistic Models for 3D Point Cloud Generation》
读到这里,我们技术篇的科普+潜力介绍就结束了。
不知道你看到这里是否会认同我一直说的话——真正的AIGC浪潮,就从GPT和Diffusion两条技术栈开始,其他挂羊排卖狗肉的暂时得靠边站。
ChatGPT的魅力我已经带大家领略过了,相信Diffusion的魅力尽管弱一些,但也不会差到哪里去。
并且不管GPT 大语言模型的威力如何强大,他未来是否真的可以跨越多模态降临到图像、音频等多模态(我在前文提过这种发展方向)。
但至少在2023年这个节点,图像领域的王仍然是Diffusion。毕竟提前半年启动的数据飞轮和学术界数以百计的paper努力不是白费的。
三、Diffusion的商业分析
如果想看具体的场景、项目盘点,可以在公众号follow这个商业项目库,本文中不会有针对具体项目的分析。
本文中尝试的是,我日常维护更新项目时,所用的分析框架和方法,详情如下:
- 需求明确性,需求越明确越无法忍受AI的自由创作,也越需要人类介入校正;
- 市场规模,由作品价值X需求规模影响;
- 分析框架,将需求明确性、市场规模组成二维矩阵;
- 限制因素,补充法律版权、敏感审核这两个限制因素作为参考;
- 一点浅薄的判断,关于这个市场会往哪个方向发展。
1. 需求明确性
需求的明确性受到两方面影响:
1)是否能够想清楚要什么
多少人/多少场景在创作之前就已经明确知道最后落地作品的样子?
事实上甲方提需求的时候,通常都是朦胧不定的,因为她们心中只有一个概念。并不是所有人都能做到文与可的胸有成竹。
2)是否能够说清楚要什么
一方面因为图像需求的朦胧性,他的表达本身就很有困难。例如我要一个奢华、有格调、符合品牌调性的海报,这其实就是朦胧需求带来的表达模糊。
而另一方面是需求方能力限制下的表达模糊。比如梦到了一副作品,那个蓝色是天青蓝还是蝴蝶兰呢?那个画风是印象派还是后现代呢?饱和度是高,还是低呢?
很难,非常难,这也是画师朋友在以前最核心的技能之一。他们在内心通过自己的审美水平建立起了感性-现实之间的通道,并最终通过自己的技艺实现作品的落地。
基于上述两个因素组合起来的需求明确性从低到高是这样子的:
①无条件创作
这就是Diffusion不加入CLIP的样子,即你给我生成一张作品,但我毫无要求,只要是作品就行。在现实中,这场场景的例子非常少,NFT可能算一个(只要漂亮、有艺术感就可以卖钱,不用你命题作文)。
②方向条件创作
给你一个方向,例如画一张类似莫奈的画,画一只可爱的猫。这个场景就是现在AI绘画目前所完美匹配的场景。他适用于低要求的创作,例如社交货币获取,AI绘画平台作品填充,文章插图等。
③限制条件创作
商业上的例子会特别常见:帮我画一个LOGO,科技风,里面一定要有潮汕牛肉丸几个字,整体色调蓝色。
这个例子中限定了LOGO,科技风,包含文字,色调等好几个条件,远高于上个层次的要求。
目前技术正在逐渐、部分地满足这个层次的需求。
④完全条件创作
上个层次中条件完全穷举后即到达这个层次,例如潮汕牛肉丸要在上面,要用衬体字,必须象形写意等等,甲方爸爸想要怎么调整就怎么调整。
目前来看,短期内AI不可能是不可能实现完全条件下的创作实现,一定需要靠人类画师借助工具进行二次修改实现。
2. 市场规模
1)单个作品的价值
这里的价值不是使用价值,就是交换价值,你可以用价格来替代理解。在AI技术的低成本碾压下,作品的价值肯定会产生断崖式下跌,但需求明确性更高的作品,会具备更高的抗贬值属性。
2)作品的需求规模
即这种类别的商品,有多大的需求空间。例如插画,原本用在故事绘本、日系轻小说等地方。而现在因为技术门槛降低,作品价值下跌,国内的网文,人物立绘,同人作品等场景也会产生需求,推动整体需求规模的爆发。
上述两者综合起来就是市场规模,目前来看基本的方向是价值下跌,但规模扩张,从而迎来整体市场规模的扩展。
3. 分析框架组装
通过这两个维度的理解,我们可以在脑中建立如下图所示的模型,对每个接触到的商业机会进行判断。
大家可以发现整个图向着右上角蔓延,需求明确性和市场规模在这个框架分析下呈现正比例关系。
但这种关系可能是一种错判,因为其中的市场规模未客观测算,收集的方向也不足够。
因此本图仅供参考,无法作为知识输入,更好的用法是套用这个框架看看各类投研公司出具的分析报告。
4. 限制因素
Diffusion的限制因素会比ChatGPT简单很多,主要围绕法律版权和敏感审核两方面。
1)法律版权
概念上可以分为训练所用图集版权+用户生成图片版权两大类。目前存在大量的争议,没有明确结论。
①模型的输入:训练图集版权
目前Diffusion原始的训练图集来自Laion(一家非营利性机构)在22年3月开源的Laion-5B(包含58.3亿文本-图像对)。其中最关键的是这个数据集中的一个子集,LAION-Aesthetics。他按照艺术性美感,对图片进行打分,其中8分以上800万张,7分以上1.2亿张。
但可想而知,这么大规模的一个数据集,肯定不全都是具备商用版权的。但目前几乎难以对这方面进行追溯定义,相关的讨论非常混乱。
他面临的本质问题是:对图像的版权定义过时了。AI模型的做法并非像素级复制,甚至非局部复制,而是复制风格、手法、要素等。这种手法有点像媒体界中流行的洗稿,几乎无法被追溯版权问题。
所以虽然画家中的抗议声音非常大,在这方面却无法产生太大的影响。
日本画家对mimic的抗议
②模型的输出:生成作品的版权
目前有一些平台采用附加NFT的做法来保障用户生成作品的版权。但同样的,在法律层面目前没有明确的定义。
如英国,尽管是少数支持AI生成作品版权的国家之一,他对AI生成作品也有着模糊的前置限定——完成作品创作所需安排的人。这个所需的人,就很有意思了,写几句Prompt算所需的人吗?好像可以算也可以不算。
再例如国内,相关的著作权法中描述,著作权法所称作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。因此AI肯定不拥有作品的著作权。
再看这条:我国著作权法第十一条规定,著作权属于作者,受到著作权保护的作者只有两种:自然人和法人或非法人组织。那么这个作者是Prompt输入者还是开发AI模型的公司呢?
我能找到唯一相关的判例来自2020年,腾讯的dreamwriter写作的财经新闻被复制转载,腾讯提起诉讼并胜诉,获赔1500元。但这则判例中没有用户+公司这种复杂情况,只有一点点参考意义。
2)敏感审核
审核主要来自输入端(Prompt)和输出端(出图前审核)。
Prompt部分比较简单,上个词库+小模型就能解决,比较成熟了。
输出端则会比较承压,毕竟色情和性感,调侃和涉政,其实边界还挺模糊的。常规平台做法一般都是模型+人工双保障。但AI绘画平台目前的收益很难承受得起这种人工审核的成本,所以输出端的控制会松一些。
目前比较主流的方式是通过用户协议进行责任约定,如下图:
From 某AI绘画平台 免责声明
5. 一些浅薄的判断
1)AI绘画会迅速从目前的方向创作领域展开,进入条件创作领域。这些条件不仅仅是风格的选择,还可能涉及语义修改,图像风格保持,核心语义保持,指定方向绘画(按姿势、按结构)等。
2)由于上一点,会导致2B的场景蓬勃发展,因为B端场景一直以来需求明确性都是高于C端场景的,同时其市场规模也会大于C端娱乐化的无条件或方向创作场景。
3)由于上一点,2B场景的扩展会导致细分领域越来越多,部分拥有独特图像数据资源的公司会下场进行垂直方向的调优,玩家数量会进一步增多。
4)由于上一点,玩家数量增多导致上下游产业链进一步发展,综合性AI绘画开放平台是一个有意思的赛道。
5)由于上述观点,蓬勃旺盛需求与AI不可控现之间的冲突,会导致工具整合成为主流,即AI不可控技术+可控修改技术的整合平台成为潮流。任何AI技术侧都会集成修改技术,而修改技术的传统公司(如PS)也会集成AI技术。画师从业者未来的操作平台一定是综合平台。
6)由于上一点,AI绘画的一个可预见的技术卡点是PNG转可编辑格式——即出图直接可修改。这个技术卡点我不太了解,不知道是否有可能解决。
如果预测错误,要么某个作出判断的知识点出错了,要么整个思考的框架出错了,都值得期待。
四、Diffusion对相关职业的影响
上一次对画师的颠覆是电脑发明的时候——手工画师逐步减少,并被数字画师替代。手工作品成为了象征品位的小众商品,就如同手工模型之于工业产品一样。
我和身边的很多画师或者设计朋友聊过这个事情,发现大部分朋友都属于乐观精神态度,没有我一开始想象的悲观(可能是我的朋友都比较厉害的缘故?不太懂这个行业哈哈)。
要开始这个命题,我们要重新把目光投回商业篇中。商业篇给出了两个重要的概念:需求明确性,市场规模。
我们这里再延伸出两个概念:画师舒适区,新增市场潜力区。
1)画师舒适区
来自于技术上可控性的演进,他会逐步往右退缩。但目前而言,Diffusion仍然在可控性方面做持续努力,这种努力短期内看来不可能触达完全限制领域(部分场景可能可以)。
所以画师的审美、感性语言-艺术作品的转化能力、对图片二次修正的技艺等能力其实会保持很长一段时间的价值。
2)市场潜力区
来自于我的一个不成熟想法。历史上生产力的进步,一定会伴随着人均消费资源的上升,进而推动市场的繁荣。
没有电脑前,人均消费的图片可能1都不到,但有了电脑后,我们的人均消费也随之而暴涨,绘画行业的人并不是减少了,反而是增多了。
这就很有趣了,我发现似乎不能将所有生产力革命都与工业革命对工人职业的替代去做类比,这是不恰当的。
我认为可能应该从两种情况来进行讨论(我觉得这个角度应该可以适用于所有职业的分析场景):
生产力到顶,工作者溢出导致失业,需要学习新技能并涌入其他行业。例如农业革命导致农民进城,工业革命导致第三产业繁荣等。
但这种溢出是有极限的,总生产规模不仅受限于劳动力,更可能受限于生产资料(农业革命),受限于消费能力(工业品供过于求)等原因,因此这个过程总会在某个节点按下停止键。
生产力未到顶,工作者受益于生产力提升,会创造更多的价值。一个例子是教师,从古代私塾,粉笔黑板,教学电子化一路过来,我们发现我们的教师行业并未发生萎缩,反而持续增长。这是因为他面临的需求并未到顶,甚至可能是无限的。
我看过一些科幻小说,大概描述一个这样的场景:人均寿命提升到1000岁,但是科学家开始真正开始科研的岁数是100岁,因为他从头到尾要学习的内容就是这么多。当文明的寿命长度,不足支撑个体完成文明知识的学习后,文明的发展就被锁死了。
收回话题来,那么Diffusion对画师的影响到底是哪种呢?
我认为至少暂时生产力是未到顶的,动漫、动画、小说插画、立绘,或者说跨模态的视频等,其实目前的需求都是旺盛的——特别是在技术压低成本后,更加是旺盛的。
但是这片市场潜力区的天花板到底多高,我无法判断。就像1000年前的宋仁宗,还有1个月他就登基了,他能想象我们今天每日消费的内容图片是多少吗?
最后做一下创作声明:本篇内容中的知识点来自为期两天的刻意学习结果,其中一部分答案来自OpenAI直接提供的回答,如有任何错误,欢迎私信指正,非常欢迎。
本文由@马丁的面包屑 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
最近公司想利用阿里百川预训练大模型搭建自己的AI模型,来替换当前业务中调用的外部接口。但是成本这块卡的很死,去年公司就给大家降了绩效,应该是盈收情况不理想了吧,所以只能选最便宜的方案,最终决定选择了使用百度文心一言开放的AI模型接口。以下了解大模型部署过程遇到几个问题,答案是AI 生成的,希望能有AI技术大佬留言指教下关于大模型部署和训练方面的费用成本情况。即使公司现在用不上,我也好开拓下眼界。
一、什么是预训练大模型?
预训练大模型是指在大规模语料库上进行训练的深度学习模型,其目标是通过学习自然语言的统计规律和语义关系来获取丰富的语言知识。预训练大模型通常使用无监督学习方法,在海量的文本数据上进行自我监督学习,预测词语、句子或段落中的缺失部分。
预训练大模型的训练过程包括两个主要阶段:预训练和微调。在预训练阶段,模型通过自我监督学习从大量无标签的文本数据中学习语言知识。这一阶段通常采用掩码语言模型(Masked Language Model,MLM)任务,其中模型需要根据上下文来预测被遮盖的词语。通过这种方式,模型能够学习词语之间的语义关系、语法结构和常见的表达方式。
在预训练完成后,模型会进行微调,即在特定的下游任务上进行有监督的训练。下游任务可以是问答系统、文本生成、情感分析等各种自然语言处理任务。通过在这些任务上进行微调,预训练大模型可以将其学到的语言知识转化为具体的应用能力,并在特定任务上展现出强大的表现。
预训练大模型的优势在于其能够从大规模数据中学习到丰富的语言知识,具有更好的语义理解和生成能力。这些模型可以应用于各种自然语言处理任务,从文本生成到文本分类,甚至在对话系统和智能助手等领域发挥重要作用。
二、部署大模型的服务器必须要带GPU 吗?
对于部署大模型,特别是深度学习模型,GPU(图形处理单元)通常被认为是一种强大的硬件加速器,能够提供更高的计算性能和并行处理能力。虽然使用GPU并非必需,但在处理大规模预训练模型时,使用GPU可以显著加快计算速度并提高性能。
以下是一些关于使用GPU进行部署的考虑因素:
计算速度:大模型的推理和预测过程需要进行大量的矩阵计算和向量运算,这正是GPU擅长的领域。相对于只使用CPU(中央处理单元),使用GPU可以大幅提升计算速度,从而减少响应时间并提高系统的实时性能。并行处理:GPU具有高度并行处理的能力,能够同时执行多个计算任务。在深度学习中,模型的训练和推理通常涉及大量的矩阵运算,这些运算可以同时在GPU的多个核心上并行执行,加快整体计算速度。内存需求:大模型通常需要较大的内存来存储模型参数和中间计算结果。GPU通常具有较高的显存容量,可以容纳更大规模的模型,而CPU的内存容量则有限。因此,使用GPU可以更好地适应大模型的内存需求。
需要注意的是,并非所有的应用场景都需要GPU。对于小型模型或者对实时性要求不高的任务,使用CPU进行推理可能已经足够。此外,一些云服务提供商也提供了使用CPU进行预测的选项,这可以降低成本但可能会稍微降低性能。
综上所述,虽然部署大模型的服务器并不一定需要带有GPU,但使用GPU可以显著提升计算速度和性能,特别是在处理大规模预训练模型时。因此,对于对计算性能有较高要求的应用场景,使用带有GPU的服务器是一个常见的选择。
三、AI大模型的训练、部署过程会产生哪些费用?除这些费用,还有可能产生其他费用吗
AI大模型的训练和部署过程可能会产生以下费用:
训练成本:在训练大模型时,需要处理大量的数据和进行大规模的计算。这涉及到硬件资源(如GPU服务器、存储设备)和能源成本(电力消耗),因此训练过程会产生训练成本。云服务提供商通常按照使用的资源数量和时间进行计费。存储成本:大模型通常需要占用大量的存储空间来存储模型参数、训练数据和其他相关文件。云服务提供商通常按照使用的存储容量进行计费。推理成本:在将训练完成的大模型部署到生产环境中进行推理(预测)时,可能会产生推理成本。推理成本主要与计算资源的使用有关,包括CPU、GPU或者云服务提供商的计算实例。云服务提供商通常按照使用的计算资源数量和时间进行计费。
除了以上费用之外,还可能有其他费用要考虑,具体取决于使用场景和需求:
数据费用:如果训练大模型需要使用第三方数据集,可能需要购买或获取使用权,这可能会产生额外的数据费用。网络传输费用:如果在训练或部署过程中需要传输大量数据,特别是跨地区或跨云服务提供商之间的传输,可能会产生网络传输费用。运维和支持费用:在部署和维护大模型的过程中,可能需要人力资源进行监控、故障排除和系统维护等任务。这可能会涉及到人员的薪资和运维支持费用。
需要注意的是,具体费用会根据使用场景、所选用的云服务提供商以及模型规模和计算资源的使用情况而有所差异。在进行大规模训练和部署之前,建议对所需资源和相关费用进行充分的调研和评估,并与云服务提供商或相关供应商进行咨询,以了解具体的费用结构和计费方式。
四、关于AI大模型的训练、存储、推理相关费用,各占比重是多少?如果可以,请详细举例说明;
关于AI大模型部署与费用的几个问题汇总
01
收集和准备数据