AIGC技术——打造更强大的人工智能
一、引言
2022年,chatgpt大型语言模型、AI绘画、生成式AI等技术突然爆火,人工智能再一次吸引了人们的目光。而其背后的核心,便是AIGC技术。虽然争议不少,但AIGC技术背后所隐藏着的是无比庞大的市场规模,将改变各行业的现有格局。
人工智能的发展,该图片由必应图像创建器制作
二、什么是AIGC技术?
AIGC 是人工智能生成内容(Artificial Intelligence-Generated Content)的缩写。它是继PGC(Professionally Generated Content,专业生成内容)和UGC(User Generated Content,用户生成内容)之后的一种新型内容创作方式。AIGC依赖于多种人工智能技术,它可以通过对已有数据进行学习以及模式识别,自动或半自动地生成文字,代码,图像,语音,视频等信息。AIGC具有的惊人的创作速度,且在多个领域如教育、传媒、娱乐、科研等方面都能得以应用,具备着令人无法忽视的强大潜力。
三、AIGC生成内容
利用AIGC技术,人工智能已经从能理解内容发展到能自主生成内容,从生成内容上分类,其可以分为代码、文本、图像、音频、视频等类别。
1、在文本领域,其应用主要在与文本理解、新闻攥写、剧情续写、人机交互等具体场景。
使用AIGC技术可以快速生成文章,新闻报道甚至是诗歌、对话等内容。例如chatgpt4,openai等热门的深度学习语言模型的实现,都离不开AIGC技术。
2、在图像领域,AIGC不仅可以自动完成去水印、光影调节、调整分辨率等基本操作,也可以进行指定主题图像生成、完整图像生成、高模糊图像修复、图像风格转换等操作。但目前该应用生成高质量图像的稳定性还需提升。
3、在音频生成上,AIGC可以摘取现有音频特色,进行特定的视频配音或是歌曲翻唱,甚至能支持基于旋律、音乐类型、情绪类型等生成特定的乐曲。音频生成技术成熟,目前较广泛地应用于语音客服、数字播报等情景。在乐曲谱写等方面发展增速较快。
4、视频生成与图像生成的方式类似,支持视频编辑、视频剪辑和视频自主生成。可以完成增删视频主体、人脸替换、虚拟环境合成、生成视频特效、自动美颜等功能。其应用范围包括短视频、动画、电影等,可以极大提高视频制作效率。
机器学习,该图片由必应图像创建器制作
四、AIGC的核心技术
AIGC可以被视为一种高度智能的搜索引擎,它能快速查询大量的原始资料数据并进行一个浅加工的过程,最终导出结果。依据于用户的要求,输出更加精准的答案,降低了用户负担的同时创造了更高了经济效益,这便是AIGC所带来的。而要实现这些功能,还需依托许多人工智能技术。以下是一些较为核心的技术。
1、深度变分自编码(Variational Autoencoder,VAE) 深度变分自编码是一种深度生成模型,它可以学习数据的潜在表示并生成新的数据。VAE由编码器和解码器两部分组成。编码器将输入数据映射到潜在空间中的概率分布,解码器从潜在空间中采样并生成新的数据。VAE通过最大化输入数据的边缘似然来训练,同时最小化KL散度来约束潜在空间中的分布。
其在数据生成和语音合成方面应用价值较高。
2、生成对抗网络(Generative Adversarial Network,简称 GAN) 生成对抗网络是一种非监督式学习方法,通过两个神经网络相互博弈的方式进行学习。(机器学习的分支,深度学习)生成对抗网络由一个生成网络和一个判别网络组成。生成网络从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判定生成网络的输出结果是否真实。该方法还被用于生成视频、三维物体模型等。
3、Transformer模型(直译为变换器) 原始的Transformer模型使用编码器-解码器(encoder–decoder)架构。编码器由逐层迭代处理输入的编码层组成,而解码器则由对编码器的输出执行相同操作的解码层组成。每个编码层的功能是确定输入数据的哪些部分彼此相关。它将其编码作为输入再传递给下一个编码层。每个解码层的功能则相反,读取被编码的信息并使用集成好的上下文信息来生成输出序列。为了实现这一点,每个编码层和解码层都使用了注意力机制。对于每个输入,注意力会权衡每个其他输入的相关性,并从中提取信息以产生输出。每个解码层都包含一个额外的注意力机制,它会在从编码层提取信息之前先从之前解码器的输出中提取信息。编码层和解码层都有一个前馈神经网络用于对输出进行额外处理,并包含残差连接和层归一化步骤。Transformer模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要、文本情感分析、语言建模、视频理解等任务。
4、大型预训练模型(Large Pre-trained Models) 大型预训练模型是一种深度学习技术,其流程分为预训练-微调两个步骤。第一步是在大规模无标注数据上进行模型预训练,学习通用的语言模式;第二步在给定自然语言处理任务的小规模有标注数据中进行模型微调,快速提升模型完成这些任务的能力,最终形成可部署应用的模型。
未来城市,该图片由必应图像创建器制作
五、前景
AIGC作为人工智能的新型生成技术,绝对不是昙花一现,它已经在预示着人工智能新时代的到来。经过了2022年的预热,AIGC在2023年迎来快速发展,其生成的内容、形式都在更加丰富,生成质量也在逐步提高。在数字化程度较高、内容需求量大的行业领域中,展现出了巨大的市场潜力。其中,多模态生成牵引着人工智能多领域拓展应用。目前,AIGC技术的产业形态显现出基础层(模型服务)、中间层(2B)、应用层(2C)三层架构并持续创新发展。AIGC有望催熟商业化应用蓬勃发展,推动数字文化产业创新,推动智能AI、元宇宙发展。
参考文献:
(1)腾讯研究院:2023年AIGC发展趋势报告(附下载) | 互联网数据资讯网-199IT | 中文互联网数据研究资讯中心-199IT
(2)万字长文:AIGC技术与应用全解析 - 知乎 (zhihu.com)
(3)AIGC_百度百科 (baidu.com)
(4)AIGC:从入门到精通 - 知乎 (zhihu.com)
(5)AIGC行业深度:应用场景、商业模式、市场规模、产业链及相关公司深度梳理【慧博出品】 - 知乎 (zhihu.com)
(6)https://indico.io/blog/sequence-modeling-neural-networks-part2-attention-models/
(7)http://jalammar.github.io/illustrated-transformer/
读心术的概念早已饱受争议,但是研究者希望这种出人意料的精准创新可以很快投入使用,来帮助有交流困难的病人,如中风的人和运动神经元受损者。
核磁共振扫描已经传统地被用于诊断大脑受损和其他疾病很多年了。解读扫描,并将它们转化成有用的信息对于大脑受损出现交流问题的患者来说是很大的飞跃。
虽然这项技术可以扫描出大脑的整体细节,但是扫描和及时解译大脑的活动仍存在根本的局限性。因为在使用该技术的过程中,血液流动过大脑会激发神经元的活动。
通过使用大量的语言模块,人工智能(AI)可以将神经元活动相应地转化成语言传达的概念、意义,这就意味着科学家们就可以将神经元活动转化成词汇和句式。如,当听到我尚没有驾驶证这几个词语时,人工智能会(AI)转化成她还没打算学开车。
人工智能(AI)解译器能将大脑活动转译成连续性的文本
美国德克萨斯大学人工智能(AI)最近通过编译器扫描大脑获得了突破,成功将人类的大脑活动转译成为文本。通过分析核磁共振图像,该编译器能将一个人要讲的话和故事精确地