AI大模型技术能力评估报告媒体沟通会
原标题:AI大模型技术能力评估报告 媒体沟通会
时间:2023年7月19日上午
地址:百度科技园K1
主持人:尊敬的各位来宾、各位媒体同仁,大家上午好!非常荣幸邀请各位嘉宾来到北京百度参与AI大模型技术能力评估报告媒体吹风会,我是今天的主持人周恩正。
一直以来作为大模型技术突破者和应用引领者,文心大模型快速迭代升级,得益于百度芯片、模型、框架、应用四层技术优势,知识增强的核心特色和大模型生态优势,不久前,多个权威测评显示,由文心大模型3.5支持的文心一言综合能力评测得分超过ChatGPT,遥遥领先其他大模型,文心大模型部分中文能力超过GPT-4。
国际咨询公司IDC是全球著名的信息技术和消费科技咨询权威机构,近日IDC发布首个大模型评估报告《AI大模型技术能力评估报告2023》,重点调研了9家中国市场主流大模型技术厂商,其中百度文心大模型3.5,以12项指标7个满分,综合平分排名第一,代表基础能力的算法模型是唯一满分,代表产业应用情况的行业覆盖,百度也是唯一满分。这三项绝对第一含金量非常高,既有基础能力,也有产业应用覆盖能力。今天在这里很荣幸邀请各位共同分享,进一步了解评估报告内容,今天到场的主要嘉宾有百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜,百度集团科技与社会研究中心主任余欢,同时还有现场170多家中央及署名当党央媒,科技、文娱等行业媒体,再次感谢各位参与。
IDC本次发布的《AI大模型技术能力评估报告》,投入时间早、研究周期长,评估最全面,与外部已有的凭感觉打分的报告不同,IDC从产品、服务、行业三个维度,12项指标出发,对大模型的底层基础能力,和产业落地进行深入全面的研究,接下来首先邀请百度集团科技与社会研究中心主任余欢,为我们带来AI大模型评估报告解读,掌声有请!
余欢:各位老师大家上午好!
我跟各位报告一下,AI大模型技术能力评估报告的评估维度,以及评估结果。
首先介绍IDC和评估报告结果之前,我想跟大家记住这三个核心信息,三个绝对第一,刚才我们的主持人提到了,百度文心大模型3.5总分这次获得唯一的绝对第一,它体现的是我们大模型的综合实力,第二部分在算法模型这个维度,获得了绝对的第一,也是唯一第一。它体现的是我们技术实力和基础能力,第三部分在行业覆盖上,我们也是唯一并且绝对的第一。它体现的是我们在产业落地产业应用的领先性。
很多朋友对于IDC不了解,我介绍一下,大家看到很多不同机构的报告,为什么IDC报告比较重要?首先IDC做分析咨询已经超过五六十年的时间了,它在全球110多个国家都会跟踪技术趋势,并且也是最早进入中国市场的科技市场研究机构之一。举个例子来看,大家都比较清楚,全球有三大评级机构,其实IDC、Gartner和Forrester三大评级机构,IDC有本土市场的结合,它的客户有微软、谷歌、英伟达、IBM、英特尔、百度、华为、阿里巴巴、腾讯等,商业新闻提及率是第一位的,过去10年被超100个IPO申请引用,它被很多厂商,很多行业客户,在做技术招投标和采购的时候,IDC的数据和指标是作为重要的参考依据。
在AI领域,IDC有两个核心的报告,一个是《中国人工智能公有云服务市场份额》它体现的是AI这个行业在过去的表现情况。百度也有幸在过去几年在过去几年获得第一位。第二个是《AI大模型技术能力评估报告》,它表示对未来的判断和对现在产品的评价,百度有幸这次获得绝对的综合第一的成绩。
我们说一下为什么这个报告和大家看到的评估报告和其他机构的报告不太一样的地方。
第一它启动时间很早,3月份,在我们文心一言跟大家亮相前后,就已经正式启动了,与海外做相关的评估报告时间是几乎保持一致的。另外它研究的时间很长,它对于众多厂商超过4个月的时间,进行了长期跟踪,这个期间也有很多能力,各家厂商的能力迭代,它报告的内容,也伴随大家的能力迭代进行调整。
第三点评估最全面,它包括了产品、服务、行业三大维度,12大指标,不仅看参数,更看技术内功和产业落地情况。
这也是大家看到外面很多报告评的,大家试用一下打一个分,这样不够客观,IDC更强调行业落地,它报告评估维度是相对客观的。
另外就是首次提出,IDC也是首次在行业内提出一套行业认可的技术评估标准,对百模混战的正本清源、去伪存真有一定的借鉴意义的。
被评估,被收纳这项报告的厂商,包括百度、阿里,腾讯和华为被提及,然后是科大讯飞、360、商汤,还有一些创业公司。
我稍微介绍一下三大维度和12大指标,这里看到的一级指标三个维度,二级指标这里列出来9个,为什么是12个?因为在行业覆盖下面有4个行业指标,能源、医疗、工业、金融,这个在不同厂商会有偏差,最多是4个,百度在这里是4个,其他的一些厂商是一个两个或者三个,这也是为什么获得行业绝对第一的原因。
大模型强调大模型技术实力和底座能力,第二部分是通用能力,通用能力主要强调在多模态各个模态上的能力。
然后是创新能力、平台能力、安全可解释性,不一一介绍了,行业覆盖考察的是大模型整体的企业级客户数量,以及落地的行业分布,在行业覆盖广度上来说,百度应该是最为广泛的。这里报告中给出来的图。大家先看右图,左图为了大家好理解,汇总各家前面排名的几个厂商综合的情况。大家看右边,右边是报告中原文的百度得分情况,在12个子项中有7项满分,总分绝对第一,算法模型唯一满分,行业覆盖唯一满分,我用蓝色黄色标出的,首先在二级指标中,所有红色的指标意味着满分,且第一。所有蓝色的指标,虽然不满分,但是也是第一或者并列第一。在12项指标当中,除了服务能力,在第二位以为,剩下所有指标,不是绝对第一就是并列第一。
左边这张图,我们把排名前4的厂商评分情况汇总到一张图上,大家看到红色是百度的评分,最高是算法模型和行业覆盖,其他的是各家厂商。
这里援引报告对百度的评价,定性评价是具有长期技术积累,竞争力领先。分两大类,一个是产品技术,一个是行业应用的评价,分别是文心一言是国内率先推出的对标ChatGPT大模型,集知识增强、检索增强、对话增强技术创新于一体,效果可圈可点。技术部分我们吴甜总会详细介绍。
另外IDC很看重百度的一点,百度文心大模型不只是一个模型或者一个产品,它是30多个大模型,涵盖多个体系。
另外IDC对于百度的四层技术栈有非常强的认可,主要是芯片、框架、模型、应用,四层技术栈独特优势,自研深度学习平台飞桨,有力支撑了大模型的高效训练和推理。
在行业应用方面,IDC对百度的评价,百度文心大模型源于产业实践,服务于产业实践,已经形成支撑大模型产业落地的关键路径,列出了国家电网、浦发、泰康、吉利、哈尔滨市、深圳燃气、TCL等企业单位,我们也跟他们合作,发布了涵盖众多行业和领域的大模型,加速对行业智能化转型。
我的介绍就这么多。后面的时间留给我们的吴甜总跟各位做详细的技术介绍。谢谢大家!
主持人:今天在场的很多媒体朋友都知道,百度很早就布局人工智能领域,从文心大模型,也就是ERNIE1.0一直到今天的ERNIE3.5,经历了多年研发历程,备受关注的文心一言,也是大模型支持其能力,文心大模型如何支撑文心一言,有哪些应用案例?接下来有请吴甜介绍百度模型算法和技术优势,掌声有请!
吴甜:各位媒体朋友大家上午好!今天分享所准备的内容,PPT的页数还不少,我先从百模大战跟大家聊起来,大家对于国内现在百模大战的现象和状态非常关心。
首先一点,这个现象表明大的趋势是所有人都非常认同的。从各种行业报告,我们也能看出来,不断有分析师给出来AI,尤其是对于生成式AI未来潜在的影响分析。这个分析看得出来,它可能会给我们整个产业结构,甚至于给社会带来深刻的影响跟变化,现在刚刚拉开帷幕。埃森哲的分析对各个行业现在所开展的工作做了一个比较深度的数据分析,可以看出具有自动化潜力、人员强化潜力,用AI能力可以进一步提升的,从不同行业来说确实不一样,如果从总体来看,埃森哲给出的数据是40%。这个是针对生成式AI的,实际上AI整体对于产业会带来多大的影响,过去这些年不断的有分析,应该说深度越来越深。
第二点,这是阶段性的现象。我们今天看到的很多模型层出不穷,在OpenAI发布ChatGPT之前,真正在做大模型的,不管是企业也好,机构也好,寥寥可数,也就几家。过去短短的也就是几个月时间内,大量新的模型出现,这是一个阶段性的现象。在演变的过程当中,其实各个企业和机构会逐渐找到自己的定位,下一步逐渐会走向自己细分的方向。
终局会是什么呢?我认为对于大模型来说,终局会集中在少量的几个大模型,有几方面原因。首先真正从底层做起来的大模型,成本非常高。文心一言它并不是想要做就能做起来的,它需要有多年的积累,需要有非常综合的能力,也需要有绝对的坚定信心,一直投入下去,才能够做好。所以从这一点上可以看到,将来只能有少数的大模型。
另一方面,在应用层面未来想象空间非常大。我们还是从这张埃森哲的行业分析可以看到,如果每一个行业都有这么大的空间,可以通过新的AI技术去提效,相信应用层面的价值,不获取这些价值,一定会分流。未来是依托几个少量大模型,会有非常广泛的应用生态,这是我对整个大的发展方向和大家做的分享。
回归到技术来看,它是人工智能技术重要的趋势,我们一定要先谈技术。人工智能时代,IT技术栈已经在发生根本性改变。我相信在座的媒体朋友们,应该听过不少关于百度的四层技术栈理念的宣传。我们如果去看一下理念背后的原因,从这张PPT当中可以看到,传统的IT技术栈是三层,芯片层、操作系统层再加上应用层。在人工智能时代,我们看操作系统层是有细分的两层,一层是深度学习框架,为什么是深度学习框架呢?因为今天的人工智能核心是依托于深度学习技术的突破,而今天的大模型也是深度学习技术演变发展新的阶段。所以深度学习框架起到非常重要的作用,向下和硬件芯片有关联,向上支撑起模型层再到应用层。而模型层现在我们能看到一系列大模型,在这里百度有文心大模型,再到应用层,不管在互联网行业,面向消费者开展的C端产品,还是千行百业各个行业不断开发出来新的智能应用,这些都是应用层。
百度的人工智能技术栈是四层架构布局,每一层都有百度多个代表性的领先技术或者是产品。芯片层有昆仑芯,框架层有深度学习平台飞桨,模型层有文心大模型,还有应用层。
今天主要围绕飞桨和文心大模型跟大家分享。首先看一下飞桨,飞桨从开源到现在,已经有多年的发展历程,在过去几年飞桨的生态有快速蓬勃发展。飞桨平台建设本身,是本着支撑产业级应用,所以飞桨平台有核心框架,也为使用者提供模型库、开发套件、各种各样的工具组件,以及有实训社区,所做的这一切,都是为了让深度学习开发门槛降到尽可能低,这样才能支撑起应用层大量的创新工作。
最新的数据显示,飞桨平台上已经有750万开发者。这个数据不太容易对比来看,拿一个在工信部有参考价值的调研数据来看,中国的软件从业人员大约是800万-1000万,软件从业人员和深度学习开发人员有很大的关联,但不完全一致,从这个角度,我想说750万的AI开发者已经是非常大的开发人群,现在在各行各业里面的AI开发,深度学习算法开发已经非常广泛了。
再看文心大模型,文心大模型百度从18年开始开展相关的工作,在19年3月份,正式的向公众发布了文心大模型1.0。19年3月16日,到今年3月16日,正好都是3月16日,依托文心大模型的技术积累,百度发布了文心一言。文心一言是以文心大模型作为基座模型开发的技术系统,它的能力对标的是ChatGPT。
在23年5月份,我们也上线了新的底座模型,文心大模型3.5。大家今天看到的外界的评测,以及刚刚分享到的IDC的评估,都是在文心大模型3.5作为基础模型的新的文心一言系统。我在这里非常不谦虚的说,新的版本文心一言能力已经超出ChatGPT 3.5,这也是在我们国内开展相关技术工作是重要的里程碑。刚才和大家分享到的IDC的评估分析,与IDC有过交流的朋友们,应该知道IDC是非常客观中立的分析机构。我们也和IDC有多年的合作,在整个合作过程当中,非常深刻感受到IDC一直在以第三方的视角,在给各个厂商做客观的分析。
刚才说三个指标很重要,第一个是总分。总分代表的是综合能力。第二个是算法模型,大模型最关键的两件事,一件事是基础要好,扛得住各种各样应用要求的内核能力,所以基础算法会非常重要。另一个在应用层面,因为我们不是做一个实验室产品,还是需要让大模型飞入千行百业,在应用层面的行业覆盖也是它的核心能力体现。所以刚才我们的同事跟大家分享了,最关键的三个数,一个是总分,一个是基础算法能力,一个是行业应用。
文心一言,从技术来看,这张图能代表文心一言整体技术的思路。最重要的是预训练大模型,我相信大家过去几个月有了解到一些技术词汇,比如说SFT、RLHF等等,这些工作在整个大语言模型建设过程当中,如果我们从它所投入的时间、资源、精力消耗来说,预训练大模型是占到绝对的大头。我们从最开始训练,到能够产出完整的模型,基本上90%的时间是花在怎么样把好的基础预训练大模型做好。刚才说到文心大模型3.5是全新预训练大模型技术。
所有的大语言模型都是在通用技术底部,刚才说到了SFT,如果把预训练模型类比成已经看过很多书的孩子,最容易让我们有直观感受的是它的智能水平到底怎么样,如果看成预训练模型,有一些精调的过程,更像是老师在指导预训练模型对齐到人所希望的它能做的一系列事情、一系列工作,给予它指导,让它能够做好。
人类反馈的强化学习,很像是不断让大模型在做题。在这个过程当中,告诉它哪些对,哪些不对,这是一个练习的过程。还有很重要的是今天我们看到的大语言模型,通过提示的方式,可以非常有效的让他按照我们希望的方式来回答问题。所以在提示方面,如何通过更好的提问,教会这个孩子怎么样回答的更好。这里不仅仅提示,包括能够体现出逻辑性的思维链的学习。这三部分表现下来之后,一个基础的大语言模型就形成了。百度在开展文心一言研发的时候,并不只是复现和别人一样的大语言模型,在我们看来,大语言模型要实用化,有问题要能解决,这个问题主要体现在对事实性的咨询。我们知道大语言模型容易产生幻觉,这个幻觉用到实际的应用场景当中,它可能带来的危害不好估量。所以怎么样能够把事实性提高,怎么样把它的时效性提高?我相信大家试过ChatGPT也会发现,它有时候回复说,我的训练数据是截止到某年某月某日之前的,当然真正使用的时候,就会需要它能够对最新的信息跟数据有反应,这是从实用化角度很重要的要求。
所以百度在刚才和大家分享的这些技术的基础上开展三大增强技术,我们叫知识增强、检索增强和对话增强。
首先和大家分享知识增强,在知识和数据当中进行学习,对于大模型来说,我们还可以对比人,人如果用知识结构,知识体系的方式进行学习的话,学习效率是更高的。学习效率更高就意味着同样规模的模型,可以有更好的效果。所以我们从知识当中,从一些专项的数据当中去进行融合学习,开展知识增强的技术。百度积累的知识图谱现在已经有5500亿事实,但是真正应用于大模型的还有大量的数据,不一定完全结构化的数据。通过让模型内化学习,通过数据的构造、语义的学习,学习到模型自身的参数当中,也通过知识外用的方式,比如说知识推理、提示构建等。模型使用的时候,能够非常稳定的达成,满足使用者的需要。
第二方面,是检索增强。检索增强解决的问题,刚刚我跟大家分享到的是时效性的问题。信息的时效性怎么解决?最佳的方法就是通过对于最新的信息和数据,能够通过搜索的方式来满足。文心一言系统采用了新一代检索架构,这是基于大模型端到端的检索架构,是极简化的检索,充分发挥了大模型自身的能力。并且,这样一个检索架构和生成架构之间,因为是大模型和大模型之间联动的优化,可以达成最好的效果。
第三方面,是对话增强。因为模型跟人现在是以对话的形式在交互的。而对于使用者来说,对话这种交互方式是最自然最天然的方式。我们通过记忆机制,上下文理解,对话规划这样的技术,在增强对话的连贯性、合理性和逻辑性。
我跟大家分享的这些点,如果观看过3月16日百度文心一言发布会的话,会知道我们的CTO王海峰博士已经把文心一言整体的技术框架和大家公布。但还不止于此,我相信大家有持续跟踪文心一言效果能力的话,应该明显发现,从3月份到现在,文心一言能力有非常大的提升,这个提升应该说使用过的话,都能明显感觉到有非常大的变化,这个得益于文心大模型3.5的支撑。文心大模型3.5在技术上,除了文心一言基本的技术框架之外,也有新的技术突破,主要有五个方面:
首先是基础模型的升级,基础模型的升级跟飞桨最先进技术的支撑是非常相关的。这里和大家分享两个单点,一个是采用了飞桨的自适应混合并行训练技术,所谓自适应混合并行训练技术,因为大模型参数规模非常大,怎么样能够让这样大规模参数的超大型网络,非常有效率的运行起来,其实要进行大量并行计算工作,这里的并行是不同角度,可能有参数的并行,有数据的并行,有流程调度的并行,还有模型自身结构上的考虑等等,所以我们叫混合并行,而且需要结合模型在训练整个过程的不同阶段,以及我们训练集群的状态去进行适应的调配。另一方面是混合精度计算。在不同阶段,以及面对训练当中不同训练要求的时候,如何去采用。这些带来的好处是什么呢?文心大模型3.5的训练效率提升两倍。两倍跟其他的数据相比较不算很大,但实际上一个这样的大规模模型训练,基本上是大几个月,训练效率提升两倍就意味着能够时间上折半,半年能变成一个季度,一个季度变成一个半月。那它带来的影响就非常大了,使得在有限的资源下能够去训练出更好的模型。
关于这个模型本身升级,我们做了大量对于数据源的优化,数据分布的优化来保证模型效果和安全性。我们都知道模型的安全性很重要。因为生成式AI,它生产出来的内容会给我们的使用者阅读,模型如何能够符合我们所希望的价值观,能够稳定、正向的给它生成结果,是非常重要的。所以,安全性也是文心一言建设中很重要的建设方向。
下一个是模型的效果本身和场景适配能力,在文心大模型3.5上进一步提升。这里有监督精调,考虑多类型多阶段的训练。在强化学习方面,有不同层次、不同粒度奖励模型的设置,奖励模型也很重要,因为奖励模型可以指导模型,总是能稳定的给出最好的方案。此外训练当中对于多损失函数混合优化,以及模型在提供服务的过程当中是有数据飞轮的。我们双飞轮(大飞轮、小飞轮,)的结合,使得文心一言在有条不紊的节奏当中去进行优化。
下面跟大家分享的是知识点增强,知识点增强带来了非常显著的效果,这块的工作最主要的目的是提升大模型对世界知识的掌握和运用能力。通过用户的提示和需求输入之后,对此做理解,从中去抽取和扩展知识点,通过搜索引擎和知识图谱的帮助,把知识点变成指导大模型生成工作之后的指引,最后是非常可控的让模型能够给出富有知识,尊重事实的结果。
还有对于逻辑推理、数学计算以及代码生成等能力。这块大家有持续使用的话,应该能感觉到三个多月时间,这个应该有非常大的变化。在这里构建了大量逻辑推理知识,也进行多种方法来综合,最终实现了文心一言现在数学能力非常出色,代码能力我相信大家试用的话,也可以感受到,也有非常明显的变化。
还有一个是插件。文心一言毕竟还是大语言模型,大语言模型某种意义上讲是思维机器人,因为语言承载我们的思维,大语言模型擅长的,可以通过语言的方式把思维呈现出来,但是也有不擅长的地方,不擅长的地方怎么办呢?通过插件的机制,可以有效的把大模型能力扩展开。我们在建设插件机制,目前已经有两个插件在文心一言产品上大家可以用到,一个是百度搜索,另一个是ChatFile,就是长文档的分析处理能力,未来也会持续建设文心一言上的插件,以及开放给开发者来使用。
总体来说,文心大模型3.5,在模型效果上对比3月份版本提升了50%,训练速度提升了2倍,还有很重要的,也得益于飞桨文心的联合优化,推理速度提升了30倍。速度提升对应的是成本的下降,在大量的使用场景,能够非常好的应用起来。
有一些例子可以跟大家分享,这是生成标题的案例,可以看到文心一言根据要求给出来了多个标题,当然这个标题可以供我们使用者再去筛选。还有像生成观点,分析和总结。这是大模型很擅长的地方,它对于观点分析和总结都是非常强的。
这是生成新闻稿,这是很长的一篇文章,所以录了一小段,可以给大家看一看。以促进大学生就业为主题写一篇新闻稿。我们看它的行文规范都非常好。大语言模型本质上是语言模型,它在语言的流畅度和用语的规范角度来说,有天生的强项。它还可以生成视频。我们可以先让模型来生成一段用于做视频的文字,再让文心一言来把这些内容转成视频。
(播放视频)
生成视频的能力,会在不久后以插件的形式开放给大家使用,现在是在百度内部进行内测。
刚才说到长文档摘要和问答。我们也可以看一看ChatFile插件的使用。先上传一个文档,上传文档之后,可以对这个文档进行摘要,进行问答,还有润色等等一系列的工作。这个大家可以在文心一言页面上试一试。
文心一言在百度自己内部场景,这几个月时间已经很多场景应用起来了,我举个例子,一个是智能办公,这个在百度自己的办公环境已经在使用,比如说让大模型帮助工作文案的写作,还有任务执行。这是非常有意思的一个功能,在百度内部的办公交流工具如流上,我们几位同事一起讨论一个工作话题之后,可以请大模型做智能总结,这个智能总结的功能,内部使用率还是很高的。有没有发现大模型总结的,比很多人总结的水平还要更高一些。
还有在会议当中的,我们在开会的时候,会有7×24小时的AI助手为大家服务,它做什么呢?做几件事情。一个是会切分整个会议的议题,比如说一小时的会议,它会根据这一小时会议当中正在讨论的议题,实时给出议题的总结。相当于把会议的议题切了段,切了段之后,会给议题总结出标题,还有AI洞察的功能,给这个议题的总结,最后形成会议纪要是非常快速的,我们同事只要稍加整理就可以使用,提高了工作效率。
还有编程,百度工程师每天的编程工作量非常大。基于文心一言,现在已经在公司内部大量使用,可以更快更好更简单的进行代码写作。
这是两个已经在应用的,还有其他的,今天时间的原因,不再一个一个分享。
今天还想和大家聊一个话题,关于大模型的产业模式。我相信也是大家都非常关心的问题。我们能看到大模型能带来的各种各样的变化,真正在产业当中形成价值,依然还有一些我们需要去探索的路径。
我们先看挑战。大模型产业化面临着挺大的挑战。总结起来有三方面:
首先是大模型的体积确实很大,模型大带来的训练难度高,成本高。第二,对于算力规模要求非常大,性能要求非常高。第三,数据规模也很大。我们今天为什么有这么多千亿参数规模,甚至也有万亿参数规模呢?它也跟海量的数据上自定义强相关。数据的规模也非常大。收集、挖掘、建设、筛选这些数据,清洗这些数据本身也是非常大的大工程。
回到最开始说的,未来终局来说,其实完全不要存在大量的大模型,而对于应用者来说,也不需要每一个应用都来进行大模型的开发。大模型产业模式,如果我们来对比让大家可以直观想象的话,可以类比芯片代工厂。现在芯片的型号、厂商非常多,但是代工厂只有几家而已,芯片代工厂价值非常大,它做什么呢?把成本高的设备和产线,还有精密的工艺流程,还有本身生产过程进行封装。整个社会不需要有非常多的企业都来实现这个能力,只要少数几家芯片代工厂,对于有芯片生产需求公司来说,只要出生产方案,交给芯片代工厂生产,就可以得到想要的芯片。如果没有代工厂的话,都无法想象是什么样的状态。大模型也是一样,这在大模型的本质和性质上是非常相似的,大模型平台是价格昂贵的大算力系统,可以把大数据、大算力、大算法都封装,并且可以建设自动化、数字化、标准化的的生产模式。应用方定义好问题,抽象好之后,把对AI模型能力要求,可以交给大模型平台,由大模型平台进行生产,最后遍地开花才有可能实现。所以我们把这几个路径,大数据、大算力和强算法通过开发训练的过程,封装给大模型平台,千行百业都可以来使用。千行百业都使用的时候,相当于享受到了大模型提供厂商高智力水平的技术,就能高效支撑起千行百业的应用。
百度一直在践行这样的理念。去年百度和11个行业当中的龙头企业机构,一起联合发布了行业大模型,行业大模型的机制也一样,在通用大模型基础上,加入行业自有的数据知识及专家经验,生产出来的新的模型,在行业当中有更好的适配性。
所以今天可以看到,大模型已经在这条路上赋能千行百业。相信也会未来能够带给产业升级巨大的支撑作用。
我今天跟大家的分享就到这里。
谢谢大家!
主持人:感谢吴甜总非常精彩详细的介绍。刚才讲到我们今天也是给大家分享一下,包括IDC整个对于我们这样一个报告的体现,行业比较认可的技术评估,是非常重要的,包括技术评估也推动大模型行业深度融合,接下来我们有一个媒体问答环节。可以跟现场的各位老师进行交流,请现场有问题的老师可以举手示意。
:吴甜总你好,我是中国日报,有一个问题想问您,您刚才提到百模大战的终局是只有几家胜出,百度如何保持自己的竞争优势呢?
吴甜:刚才跟大家分享的内容已经涉及到了。首先在模型建设上,是非常高壁垒的事情。模型建设首先百度持续有积累,同时自身也有非常坚定的投入。所以基础的模型本身就是能够保证先进性最重要的基本点。另一方面是应用。应用角度来说,百度自身有多项强有力的业务来支撑这一点,也有相应的模型应用生态,这一系列的保障,从底层的模型到应用,是全方位的建设。
:吴总你好,我是百姓网的,我的问题是百度被授予了国家人工智能标准化总体组大模型专题组联合组长单位,我想问一下百度在人工智能标准化工作当中发挥什么样的作用呢?
吴甜:百度作为联合组长单位,这是非常好的事情,大模型产业化标准也是很重要的一件事情。百度作为联合组长,在大模型核心技术研发,产业应用、生态建设方面希望能够积极发挥一些作用,也是积极去投入到推动大模型标准化的顶层设计上,以及相应标准规则的研制,在这方面百度自己本身就是重要的从业者,也有一手的实践经验,积极参与到标准当中,希望推动大模型产业的发展。
:吴甜总你好,中国妇女报提问,我有两个问题,咱们文心后续的产品发展把重点放在哪些方面?第二个问题,我们看到文心的团队有很多女性科技工作者,包括您也是,我想问一下女性在研发过程中,都贡献了哪方面的力量?如果方便的话,可以举一两个例子,讲个故事之类的。
吴甜:文心一言下一步的发展有几个方面,首先这是从基础能力上来说,是往通用能力发展重要的产品。所以在基础通用能力提升上,会持续的进行,到目前来说,现在效果很好,但依然没有达到我们对它的最高期望,这里头还有大量的工作需要去开展。还是类比到人的话,给社会一个智商、智力水平足够高,综合能力足够强的,可以到社会上供职的AI,这是很重要的大的目标。
第二方面,我也一直和大家分享的就是应用,应用的实用化,是现在新技术带给大家价值的重要方面。所以文心一言建设过程当中,从我刚才分享中能看出,我们很多方面的建设是考虑了它如何实用化,以及如何能够跟我们千行百业重要的场景能够有更好的发挥价值,这个会去建设,这也会是重点。
文心一言团队确实有女性工作者,这个不是文心一言团队,本身百度技术团队女性的占比并不算低,百度女性技术工作者和男性技术工作者有非常好的协作,共同创新。个例的话,就不在今天这个会议上分享了。
大型AI模型已经变得越来越常见,它们在许多复杂任务中展现出了强大的实力,引领着前沿技术的发展趋势。这些大模型既给了我们无限的可能,也带来了一个难题:在百模大战的大背景下,我们如何从这么多的大模型中选择最适合自己需求的模型呢?选择的标准又应该是什么?这对于希望利用大模型推动业务发展的企业来说,是一个需要解决的重要问题。因此,我们需要一套完整且科学的评估体系,来帮助我们评估和比较各种大模型的能力。
近期,IDC发布的《AI大模型技术能力评估报告,2023》,尝试为这个问题找到一些解决方案。该报告创建了一个AI大模型技术能力的评估模型,并对国内14家厂商的大模型能力进行了评估。
3个维度,8个指标,评估大模型的能力
“百模大战”打响,如何评估一个AI大模型的能力水平?