1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

ChatGPT产业链机会解读

1987web2023-02-13人工智能AI312
ChatGPT来龙去脉

ChatGPT来龙去脉

从任务角度来说,ChatGPT以问答类为主,对话领域的模型非常复杂, ChatGPT技术方案最大的优点就是单一模型,特点就是参数比较大,达1750亿的参数,代价就是需要巨大的算力。当今时代和过去不同的就在于以前是系统复杂导致人力消耗巨大,现在则是算力要求。以前重人力的时代下产品的天花板不高,ChatGPT实现的效果在以前是无法达到的。

ChatGPT技术最初的源头是Transformer结构,这个结构最大的意义是可以承载更大的算力和数据,去训练一个更复杂的模型。GPT3所采用的GPT路线,又叫单向注意力模型,只要算力足够就可以训练出参数巨大的模型,尺寸上不封顶,最高点尚未可知。

GPT3是20年提出的模型,达到1750亿参数,这已经是OpenAI的产品演化了两年后的产品。2020年和2021年很多公司在做千亿甚至万亿参数的模型,但都达不到GPT3的效果,很多公司并没有持续深耕该领域,而OpenAI在经过两年后又提出了Gpt3.5。所以来看2023年即将发生的事情,接下来可能会有一些公司和团队对外宣称做出了类似ChatGPT的模型,参数甚至超过ChatGPT,但不会有想进一步把模型转化为产品的想法。如果存在一些公司能够做出模型并且不断改进、持续升级的话,那么这些公司是值得关注的。

Chatgpt应用落地的一个很大的问题在于在任意场景落地都需要对产品进行定制化。还有一点,ChatGPT虽然见多识广,但是比某一项能力,未必能超越垂直类的产品,比如针对医疗数据训练出一个模型,用它来做问答,在医疗领域一定是比ChatGPT要好的。

解决这些问题的方案主要在于解决具体场景定制化的需求。一方面是知识的定制化,要让ChatGPT学会、精通某一领域的知识;另一方面就是技能的定制化,要对ChatGPT特有的技能如:推理、写作等进行专门强化。但是定制化的问题在于成本非常高,ChatGPT的参数量很大,训练成本就会很高。类似 ChatGPT这类模型的商业落地,应该先从中等尺寸的模型开始做起,这些中等尺寸的模型可能就几十亿到几百亿的参数,落地成本没有那么高。中等尺寸的模型可能功能没有ChatGPT强大,但是在专业领域,往往也不需要全方面的能力。

国内的发展格局分为两大类,一类是专门型的研究机构和团队,另一类就是大型公司。从公司角度来看,国内有百度、阿里、华为、腾讯还有浪潮等都在探索这个行业,他们都有超过千亿的大模型,但是他们没有将这些模型当做产品去做。虽然这些大厂商有丰富的资源,但是在现在的大环境下,整体都处于收紧的状态,资源基本都倾斜主营业务,不会在探索性的领域投入过多。从研发机构角度来看,只有北京智源和IDEA研究院。智源开展时间较早,在GPT3出现后,智源做过千亿参数的模型。IDEA研究院也做了一系列的几亿到几十亿的开源模型,已经形成的封神榜预训练大模型体系在中文NLP起到支撑性的作用。评估一个团队,要注意是否有在大算力上去做大模型的经验,大多数团队都只是具备在小规模算力上做小模型的经验。

展望NLP和AIGC的未来发展,NLP是经历范式革命非常严重的一个领域,从以前需要找关键词到现在Transformer结构的出现,技术在不断地改变,有一个猜想就是NLP领域未来可能会消失,像ChatGPT这样的模型出现,我们有特定需求的时候只需要去调整ChatGPT去实现即可,未来NLP算法工程师是否还有存在的必要是一个值得思考的问题。

专家问答Q:ChatGPT相对于其他竞品来说,主要的创新点和技术壁垒在哪里?A:ChatGPT利用强化学习从人类标注者反馈中学习,可进行问答、阅读理解、头脑风暴等。ChatGPT关键能力来自于基座模型能力(InstructGPT),可真实调动数据并从用户标注中反馈学习。ChatGPT模型结构与InstructGPT几乎相同,InstructGPT基于OpenAI GPT-3.5模型强大的基座能力,其学习主要分为三个阶段:1)第一阶段为冷启动监督策略模型。一开始依靠GPT-3.5,GPT-3.5虽然很优秀但不能理解人类不同指令中所蕴含的不同意图。故人类标注员会对测试用户提交的反馈中,对每个询问做出高质量回答,来使GPT-3.5模型初步具备理解人类意图的模型能力。2)第二阶段为训练回报模型。训练回报模型依然依靠人工标注数据来训练回报模型,对每各问题所对应的K个结果质量进行排序,再通过对比学习方法得到一个激励模型(Reward Model)。3)第三阶段为使用强化学习策略来增强模型预训练能力。此阶段不需要人工标注数据,使用第二阶段模型打分更新预测结果。使用提问对应的随机指令,运用冷启动模型初始化PPO模型参数,进行随机打分,此分数即回答的整体Reward,进而将此Reward回传,由此产生的策略梯度可以更新PPO模型参数。其创新点在于没有涉及多阶段模型训练任务,一般直接通过监督学习或强化学习。其将多个模型、训练方式累加到一起,通过多个模型作用于一个结果。Q:如何展望ChatGPT商业模式,以及对产业链其他公司的影响?A:伴随ChatGPT继续快速发展,ChatGPT作为NLP的一个基础模型,NLP领域包括信息抽取、机器翻译、小样本迁移学习等研究方向将会迎来较大发展。上游来看,数据标注、算力、数据清洗、数据采集等行业将面临蓬勃发展。下游来看,智能客服、聊天机器人等应用领域将蓬勃发展。目前国内电商等行业智能客服多轮对话能力较差,伴随ChatGPT等开放式对话模型升级,智能客服会在人力成本方面有飞跃。在写作等创作领域会有较大突破。NovelAI(diffusion)等绘画AI可提高平均画作质量且降低了成本。ChatGPT素材收集、润色改写、扩充摘要等服务将使创作效率得到提升,AI辅助写作可能成为主流写作方式。虚拟现实领域也是较为重要的领域之一。得益于AI创造能力提升,人类虚拟世界丰富程度将极大提升,将吸引更多客户。在教育领域,ChatGPT可作为专职教师提高获取知识效率。在搜索引擎行业,目前ChatGPT还无法替代搜索引擎功能。首先,其基于大规模模型,新知识接受能力不友好,更新模型的训练成本与经验成本很大。其次,若面向真实搜索引擎的大量用户请求,在线推理成本较高。搜索引擎与ChatGPT模型双结合方式可能会成为搜索引擎主流方向,国外部分厂商已经在逐渐将类似ChatGPT功能嵌入搜索引擎。Q:国内ChatGPT产业链的发展现状?A:国内向ChatGPT以及AIGC领域发展的公司已非常多。百度向ChatGPT领域发展动机十分明确,维护其搜索领域护城河,在下一代搜索引擎市场中抢先占据有利地位。百度ChatGPT业务开展得益于其大量搜索引擎业务问答样本,样本量级足够。京东、阿里、拼多多等公司已经开始在智能客服方向上做出尝试。字节跳动也在逐渐入局AIGC,并将生态场景在内部进行应用,原来今日头条中内容分层依靠于UGC等生产者,现在已逐步往AIGC方向迁移。国内一些创业型公司也已经开始崭露头角。聆心智能推出AI乌托邦,其开放式对话与ChatGPT较为类似。国内大多数公司正在向虚拟人、AIGC等概念靠拢,目前没有ChatGPT替代品问世,还存在着一些技术发展瓶颈。原因在于四点:1)国内缺少基础模型,没有模型迭代积累。ChatGPT依赖于InstructGPT,InstructGPT依赖于GPT-3.5、GPT-3。2)国内缺少真实数据。除百度有天然用户搜索问答训练样本外,对于其他公司较为缺少。3)国内缺少技术积累。ChatGPT发展过程中对于数据处理、清洗、标注、模型训练、推理加速等方面均具有技术难点,且对结果均影响较大。且包括国内大厂在内,强化学习框架仍未出现大规模使用场景。4)国内创新性土壤还需发展。整体商业环境较为急躁,但投入与产出需要花费一些时间。Q:随着ChatGPT的应用群体增加,是否会出于成本考虑对国内的流量使用进行限制?A:目前ChatGPT处于demo阶段,是否会对流量作出限制取决于OpenAI在此阶段预备投入,其是否愿意增加机器、增加服务部署。若国内流量已经完全影响到其在线服务,限制国内流量是有可能的。Q:后续围绕ChatGPT、AI,产业还有哪些值得期待的重大变化?A:短期重要产业变化主要在三个方面。首先,短期内围绕ChatGPT,搜索引擎领域会出现两者结合发展方向。其次,在智能客服领域,若ChatGPT可以实现客服功能,对人力成本降低会有突破。再次,在NLP应用领域,由于其本质上是序列到序列的语言模型,伴随ChatGPT模型能力提升,领域技术上限提升,下游机器翻译等领域也会得到发展。Q:基于ChatGPT的智能客服,是否反而会增加企业成本?A:分情况而定。传统客服成本为人力成本,ChatGPT成本包括在线策略成本、机械成本、离线训练成本、数据采集调度成本等方面。在成本方面,需要对客服对接客户问答数据量进行估算,对小规模公司来说,自研此类工具需要大规模数据训练、采集、清洗等资本花费。对于大规模日均产生用户交互较多的公司来说,长期来说,数据训练、采集、清洗等资本花费只是一次性的,花费更多集中在在线成本上,此时成本会低于人力成本。故新型的ToB服务模式为中小型企业提供智能客服功能也将是未来发展的方向。在质量方面,ChatGPT质量不会低于人工客服,其足以支持代码Debug等精细专业化服务,效率比人工客服高。Q:国内布局ChatGPT公司中,在信息基础设施选择方面,国产设备及云的占比情况如何?A:云计算设施方面,国内大厂例如百度、阿里、字节均使用自研云计算服务。对于中小型企业,阿里云市占率最高,阿里云、京东云排名较为靠前。芯片方面,目前大规模使用英伟达芯片,主要原因在于其性能、服务链路积累及其市占率优势。目前自然语言处理、计算机视觉等领域均会使用英伟达GPU芯片等高性能芯片。针对搜索、推荐等场景,很多公司不采用GPU而采用CPU形式,例如字节在推荐等场景更多使用CPU芯片进行分布式计算环境搭建,成本会有所降低。但对ChatGPT来说,对大规模GPU芯片有所需求,国外大厂目前市占率非常高,国内自研有所推进但在此方面仍有所欠缺。来源:SEVEN调研纪要