请输入关键字词

热门标签排行

网友热搜词排行

您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

接棒ChatGPT，这些AI视频生成应用正在爆火

1987web2023-08-11人工智能AI397

去年来，由美国人工智能实验室OpenAI发布的一款人工智能技术驱动的自然语言生成式聊天机器人——ChatGPT迅速火遍全球。

去年来，由美国人工智能实验室OpenAI发布的一款人工智能技术驱动的自然语言生成式聊天机器人——ChatGPT迅速火遍全球。

紧随其后，国内外多家互联网巨头也相继宣布推出自己的AI应用，争先恐后入场。

中国科学院院士褚君浩、中国工程院院士蒋昌俊等专家，近日在科创中国数字经济技术创新峰会上发表演讲指出，以智能化为特征的第四次工业革命已经发生，ChatGPT就是这次工业革命的一个标志性成果。

ChatGPT热潮涌动，我们更应该关注对各类大模型的投入，在AIGC领域，ChatGPT为代表的以文字对答形式的智能聊天机器人和Midjourney为代表的图片智能生成工具仅仅是开端。

如今，视频领域的技术革命已近在眼前，下一个AI现象级应用即将诞生。

小红书作者「汗青」利用AI绘画软件Midjourney生成了前苹果CEO乔布斯的照片，然后通过AI拟声工具ElevenLabs模拟了乔布斯的声音，最不可思议的是，结合图片和声音，「汗青」再使用AI视频生成工具D-ID居然获得一段十分逼真的乔布斯视频。

借助类似的AI工具，网友用魔法生成的纸片人都能动起来了，甚至还能轻松创造一个自己的数字分身。

不久前，ChatGPT火爆全网的时候，科技界里的专业人士都在传谷歌AI生成的一段视频。

「谷歌」

Phenaki和Imagen Video

谷歌视频AI背后的AI大模型称为Phenaki。用户只需要输入一段文字描述，就可以迅速生成一段几分钟的视频，而且该模型的视频质量已经远胜过去的AI视频。

例如给它提供以下文字：

一只逼真的泰迪熊正在潜水；随后它慢慢浮出水面；走上沙滩；这是镜头拉远，泰迪熊行走在海滩边篝火旁。

Phenaki会给出这样一个视频：

再试一次，若输入：

宇航员穿过火星上的水坑的侧视图，宇航员在火星上跳舞宇航员，在火星上遛狗，宇航员和他的狗看烟花

Phenaki甚至能给出一个跳街舞的宇航员

更早之前，谷歌还推出过基于扩散模型的Imagen Video。

Imagen Video是基于文本条件生成视频的模型。给定相应的文本提示，在基于视频生成模型和交错时空视频流超分辨率模型，Imagen Video能够生成高清晰度的视频。

该模型能够生成高保真视频，而且具有高度的可控性和世界知识，包括能够生成各种艺术风格的视频，3D结构的视频，或者是生成特定的动画。

「Meta」

Make-A-Video

根据Meta官网和相关论文的介绍，Make-A-Video的研究是建立在T2I生成技术的最新进展之上的。

Meta表示，Make-A-Video相较于目前行业内的一些其他技术，就比如CogVideo、Video Diffusion等，有三大优势，首先它加速了T2V模型的训练（它不需要从头开始学习视觉和多模态表示）；其次它不需要成对的文本－视频数据；最后，Make-A-Video生成的视频的多样性，包括审美、艺术风格等都十分丰富。

当输入：

身着超人服装在天空飞翔的狗

Make-A-Video会生成一只酷狗儿

还有猫猫手拿遥控器看电视：

不仅如此，Make-A-Video还可以将指定视频生成同风格的不同视频，这非常适合需要考虑作品版权的场景。

上为原视频，下为Make-A-Video生成的视频：

此外，Make-A-Video也可以为静止的图片生成与之相关的活动视频

还能根据两张图片生成过程视频：

「Runway」

Gen-1

曾参与构建了最初版本Stable Diffusion的人工智能公司Runway，近日该公司推出了一款全新AI视频生成器Gen-1，即将开放内测，据官方介绍该工具可以将视频转换成任意风格。

用户提供一张参考图，就能对原视频进行指定风格化的渲染，或者用文字指示修改视频中的部分素材，甚至还可以输出3D模型渲染和定制视频。

「百度」

VidPress

不只是海外，国内大厂在AI生成领域也已有所布局，首当其冲的便是拥有文心大模型的百度。

早在2021年1月13日，百度研究院发布一条由AI自主剪辑的视频《2021年十大科技趋势预测》。

该AI 自动生成视频背后的技术是百度研究院孵化推出的 AI 黑科技 VidPress，其是国内业界首个支撑通用型、大规模的全自动视频生产技术。

基于百度文心大模型，VidPress整个内容生产过程可以分为三个环节：

第一个环节是音频内容的生成，平台基于多种语言模型对图文内容的文字部分进行处理，然后自动生成一篇字数符合要求且适合视频呈现的解说词，再通过文字转音频服务(TTS)合成解说词语音；

同步进行的环节是视频内容的生成，平台会对图文内容进行语义理解，根据文章内容自动搜索相关素材，再通过计算机视觉技术对素材进行分析和理解，然后精选出合适的素材进行智能剪辑合成；

最后一个环节是音视频的对齐，这就涉及到百度的第二代时间轴对齐算法，选取文本中的兴趣点，再将视频片段与兴趣点的相关度进行打分，优质的视频片段将优先放入时间轴，最终进行渲染输出。

此外，最近国内的3D短视频的一站式AIGC引擎技术服务提供商深氧科技完成了千万元级天使轮融资，引入GPT3.5、Transformer、Diffusion Model等AI技术红利，其发布的O3.xyz引擎V1.0版本支持一站式生成3D短视频内容，多位知名自媒体主都已宣布加入内测。

由此可见，跨模态AI生成视频行业正在急速发展中，用嘴做视频已经走进现实，未来在短视频、影视、设计、游戏、电商、数字艺术品等诸多行业都存在应用的可能。

ChatGPT带火的智能聊天机器人只是开端，人类即将开始全面拥抱人工智能。

相关文章