AI大模型技术背景及国内基本情况
1
AI大模型技术背景
人工智能(Artificial Intelligence,简称AI)大模型的技术背景发展历程可以追溯到上世纪50年代,到今天大致分为四个阶段。
---早期符号主义(Symbolic AI):20世纪50年代至70年代初,AI研究主要关注于通过逻辑和符号推理来模拟人类智能。这一时期的代表性成果包括逻辑推理和专家系统。
---连接主义(Connectionism):20世纪80年代至90年代,研究人员开始将注意力转向基于神经网络的模型。这些模型通过模拟神经元之间的连接和信号传递来实现学习和推理。著名的连接主义模型包括感知器和反向传播神经网络。
---统计学习(Statistical Learning):20世纪90年代末至21世纪初,随着计算能力的提升和大量数据的积累,统计学习方法逐渐兴起。这种方法基于统计模型和机器学习算法,通过从数据中学习模式和规律来实现AI任务。支持向量机(Support Vector Machines)和随机森林(Random Forests)是当时常用的算法。
---深度学习(Deep Learning):2010年代至今,深度学习在AI领域取得了重大突破。深度学习使用深层神经网络模型,通过多层次的非线性变换和大规模数据训练,实现了对复杂数据模式的学习和表征。卷积神经网络在图像识别中取得了巨大成功,而循环神经网络则在自然语言处理中得到了广泛应用。其中,Transformer模型的提出为自然语言处理任务引入了注意力机制,并为后来的大模型奠定了基础。
---AI大模型的崛起:近年来,AI大模型,特别是以GPT(Generative Pre-trained Transformer)系列为代表的预训练语言模型,成为了AI领域的热点。这些模型使用深度神经网络,在大规模语料库上进行预训练,然后在具体任务上进行微调。这种模型在自然语言处理、语音识别、图像处理等领域展现了强大的性能。GPT-3模型在2020年引起了广泛关注,并被认为是迄今为止最大的AI语言模型。此后,GPT-4和GPT-5等更大规模的模型也相继问世。
AI大模型的发展经历了从符号主义到连接主义、统计学习,再到深度学习的演化过程。通过不断提升模型规模、数据和计算能力的增强,AI大模型取得了在各种任务中超越人类的惊人表现,成为当前人工智能研究的重要方向之一。
国内基本情况
2
总体上来看,目前国内有几十家企业及科研院所涉足人工智能大模型训练,主要分为大型科技公司、科研院校和初创科技团队三类。从大模型的布局体系来看,百度、阿里、华为等大型科技公司从算力层、平台层、模型层、应用层进行了四位一体的全面布局,科研院校及初创科技公司主要以研发大模型算法及细分领域应用为主。从大模型参数量看,大型科技公司的参数量远大于科研院所,但基本都处于千亿及以上规模;从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向B端企业拓展服务,预计少数企业将在C端市场形成规模。总体来说,业界普遍认为国内大模型与GPT-3的水平相当,与GPT-4仍有较大差距。
图源:中移智库
具体来看,目前国内的几种大模型产品主要包括百度、阿里、腾讯、阿里、华为、字节等公司发布的产品。
---百度文心大模型:包含 NLP、CV 等在内的系列大模型。文心大模型包含 NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型等。与 Bing 类似,文心一言有望优化 C 端用户搜索、创作体验;ToB 方面,百度已 开放大模型 API 接口,在文案、AI 作画、开放域对话方面赋能企业。对于具 体行业,百度推出文心行业大模型,以行业知识增强为核心特色。
当下,百度文心大模型积极拓展内外部应用,目前面向公众和企业用户同时进行开放测试。内部应用层面,文心大模型已经率先应用于百度搜索、信息流、智能驾驶、百度地图、小度智能屏等内部重要产品上;外部应用层面,文心大模型在金融、能源、制造、城市、传媒、互联网等行业有标杆应用案例,实现真实场景应用的同时获取大量行业数据反哺大模型的优化。据媒体公开信息显示,目前600多家企业宣布加入文心大模型生态。
使用文心一言很简单,用户可以通过访问百度的文心一言网页或使用相应的移动应用程序来体验。在这个平台上,用户可以选择不同的主题、情感或表达方式,例如爱情、友情、励志、感恩等,然后点击生成按钮。文心一言将基于用户选择的主题和情感,使用预训练的AI模型生成一段与之相关的短文本。需要注意的是,文心一言是基于模型的文本生成应用,它并不是一个智能对话系统或具备理解复杂上下文的AI模型。它主要侧重于生成短文本,而不是进行对话或提供详细的问题回答。
---阿里巴巴通义大模型(Alibaba Comprehension of Similarity, ACS):由通义-M6 模型融合语言模型和视觉模型组成,率先应用在硬件终端天猫精灵和软件通义千问。通义大模型包括统一底座 M6-OFA,三大通用模型通义-M6通义-AliceMind通义-视觉大模型,以及行业层面的不同垂直领域专业模型。ACS是基于Transformer架构的深度神经网络模型,它使用大规模的语料库数据进行训练,通过学习语言的语义和句子结构,实现对文本的理解和表征。
ACS在文本相关任务中表现出色,包括句子相似度计算、语义匹配、问答系统等。它能够理解句子的语义含义,并能够判断两个句子之间的相似度或相关性。在应用上,天猫精灵基于通义大模型推出拟声助手鸟鸟分鸟;对话式通义千问已经开始内测。
---腾讯混元大模型:混元大模型是腾讯AI Lab于2021年发布的一项重要研究成果,旨在推进自然语言处理(Natural Language Processing,NLP)和语音合成(Speech Synthesis)领域的技术发展。它采用了大规模的深度学习模型,通过训练海量的语言和语音数据,具备了强大的语义理解和生成能力。在训练方面,采用热启动降低训练成本,文字视频等多领域表现优异, 已在广告游戏等多场景落地。目前腾讯混元大模型已在腾讯广告、内容创作、 游戏、对话式智能助手等方面实现落地,大幅提升工作效率并降低成本。
---华为盘古大模型:基于 ModelArts 研发设计的系列模型,在物流、药物研发、气象预测等多领域已实现落地。具体而言,华为打造了昇腾芯片+MindSpore框架+盘古大模型+行业应用四位一体的完整体系,主要面向企业市场提供全栈式服务。
2020年,华为启动研发盘古大模型。2021年4月,华为正式发布盘古大模型,包括自然语言处理、计算机视觉、科学计算等大模型。其中,盘古自然语言处理大模型可应用于智能文档搜索、智能 ERP、小语种大模型等领域;盘古计算机视觉大模型则聚焦分类、分割、检测等视觉场景,可应用于工业质检领域;科学计算大模型则主要用于解决各种科学问题,如气象预报、海浪预测等。另外,华为盘古大模型依托自研的昇腾910、920系列芯片,与MindSpore框架形成一个整体,为企业提供全栈式的应用服务。
---商汤日日新大模型:以AI大装置SenseCore算力平台+新SenseNova大模型为企业提供模型训练基地。2018年,商汤启动大模型研究。2022年,商汤推出了320亿参数量的通用视觉模型,在自动驾驶、工业质检、医疗影像等多个领域落地应用。2023年4月,商汤发布大模型日日新SenseNova,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练、模型研发功能等多种能力。另外,商汤的AI大装置SenseCore是亚洲最大的算力平台之一,可以同时支持 20个千亿级参数的大模型训练,最高可支持万亿参数超大模型的训练。
3
未来发展趋势
第一,随着计算能力的提升和数据的积累,AI大模型的规模将继续增大。目前的大模型如GPT-3和Turing-NLG已经具有数十亿甚至上百亿的参数,而未来可能会有更大规模的模型出现。这些大模型能够更好地处理语言、图像、声音等复杂信息,进一步提升AI系统的性能。
第二,AI大模型将会更加注重多模态数据的融合,即同时处理语言、图像、声音等多种类型的数据。通过多模态融合,AI系统可以更全面地理解和生成信息,实现更丰富、更智能的交互和应用场景。
第三,为了克服数据标注的困难和成本,AI大模型将更多地借助自监督学习和增强学习来进行训练。自监督学习通过利用大量未标注的数据进行预训练,然后通过微调等技术来完成具体任务。增强学习则通过与环境进行交互学习,使得AI系统可以在复杂的场景中不断优化自身策略。
最后,AI大模型在未来将更加注重模型的泛化能力和可解释性。泛化能力指的是模型在面对新的、不同于训练数据的情况下仍能有效地工作;可解释性则是指模型能够清晰地解释其决策和推理过程。这样可以增加用户的信任度,并使得AI系统更好地适应多样化的应用场景。
往期精选
经济学巨擎、诺奖得主卢卡斯去世——凯恩斯主义vs理性预期学派
图1:各模型方法在5个公开数据集上指标对比
据悉,这是腾讯首次对外披露混元AI大模型的研发进展,该模型包含但不限于:计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。混元AI大模型基于腾讯太极机器学习平台进行研发,借助GPU算力,实现快速的算法迭代和模型训练。
近年来,图文及视频内容在互联网内容中所占比例不断提高,如何更细粒度的理解视频内容,融合多个模态的特征信息,成为跨模态视频检索技术的重中之重,在AI领域有深入研究的科技公司纷纷开始在该领域布局和投入。
腾讯“混元”AI大模型首次亮相一举斩获跨模态检索榜单大满贯!
AI大模型只能沦为“锦上添花”吗?
原标题:AI大模型只能沦为锦上添花吗?