接棒ChatGPT,这些AI视频生成应用正在爆火
去年来,由美国人工智能实验室OpenAI发布的一款人工智能技术驱动的自然语言生成式聊天机器人——ChatGPT迅速火遍全球。
紧随其后,国内外多家互联网巨头也相继宣布推出自己的AI应用,争先恐后入场。
中国科学院院士褚君浩、中国工程院院士蒋昌俊等专家,近日在科创中国数字经济技术创新峰会上发表演讲指出,以智能化为特征的第四次工业革命已经发生,ChatGPT就是这次工业革命的一个标志性成果。
ChatGPT热潮涌动,我们更应该关注对各类大模型的投入,在AIGC领域,ChatGPT为代表的以文字对答形式的智能聊天机器人和Midjourney为代表的图片智能生成工具仅仅是开端。
如今,视频领域的技术革命已近在眼前,下一个AI现象级应用即将诞生。
小红书作者「汗青」利用AI绘画软件Midjourney生成了前苹果CEO乔布斯的照片,然后通过AI拟声工具ElevenLabs模拟了乔布斯的声音,最不可思议的是,结合图片和声音,「汗青」再使用AI视频生成工具D-ID居然获得一段十分逼真的乔布斯视频。
借助类似的AI工具,网友用魔法生成的纸片人都能动起来了,甚至还能轻松创造一个自己的数字分身。
不久前,ChatGPT火爆全网的时候,科技界里的专业人士都在传谷歌AI生成的一段视频。
「谷歌」
Phenaki和Imagen Video
谷歌视频AI背后的AI大模型称为Phenaki。用户只需要输入一段文字描述,就可以迅速生成一段几分钟的视频,而且该模型的视频质量已经远胜过去的AI视频。
例如给它提供以下文字:
一只逼真的泰迪熊正在潜水;随后它慢慢浮出水面;走上沙滩;这是镜头拉远,泰迪熊行走在海滩边篝火旁。
Phenaki会给出这样一个视频:
再试一次,若输入:
宇航员穿过火星上的水坑的侧视图,宇航员在火星上跳舞 宇航员,在火星上遛狗,宇航员和他的狗看烟花
Phenaki甚至能给出一个跳街舞的宇航员
更早之前,谷歌还推出过基于扩散模型的Imagen Video。
Imagen Video是基于文本条件生成视频的模型。给定相应的文本提示,在基于视频生成模型和交错时空视频流超分辨率模型,Imagen Video能够生成高清晰度的视频。
该模型能够生成高保真视频,而且具有高度的可控性和世界知识,包括能够生成各种艺术风格的视频,3D结构的视频,或者是生成特定的动画。
「Meta」
Make-A-Video
根据Meta官网和相关论文的介绍,Make-A-Video的研究是建立在T2I生成技术的最新进展之上的。
Meta表示,Make-A-Video相较于目前行业内的一些其他技术,就比如CogVideo、Video Diffusion等,有三大优势,首先它加速了T2V模型的训练(它不需要从头开始学习视觉和多模态表示);其次它不需要成对的文本-视频数据;最后,Make-A-Video生成的视频的多样性,包括审美、艺术风格等都十分丰富。
当输入:
身着超人服装在天空飞翔的狗
Make-A-Video会生成一只酷狗儿
还有猫猫手拿遥控器看电视:
不仅如此,Make-A-Video还可以将指定视频生成同风格的不同视频,这非常适合需要考虑作品版权的场景。
上为原视频,下为Make-A-Video生成的视频:
此外,Make-A-Video也可以为静止的图片生成与之相关的活动视频
还能根据两张图片生成过程视频:
「Runway」
Gen-1
曾参与构建了最初版本Stable Diffusion的人工智能公司Runway,近日该公司推出了一款全新AI视频生成器Gen-1,即将开放内测,据官方介绍该工具可以将视频转换成任意风格。
用户提供一张参考图,就能对原视频进行指定风格化的渲染,或者用文字指示修改视频中的部分素材,甚至还可以输出3D模型渲染和定制视频。
「百度」
VidPress
不只是海外,国内大厂在AI生成领域也已有所布局,首当其冲的便是拥有文心大模型的百度。
早在2021年1月13日,百度研究院发布一条由AI自主剪辑的视频《2021年十大科技趋势预测》。
该AI 自动生成视频背后的技术是百度研究院孵化推出的 AI 黑科技 VidPress,其是国内业界首个支撑通用型、大规模的全自动视频生产技术。
基于百度文心大模型,VidPress整个内容生产过程可以分为三个环节:
第一个环节是音频内容的生成,平台基于多种语言模型对图文内容的文字部分进行处理,然后自动生成一篇字数符合要求且适合视频呈现的解说词,再通过文字转音频服务(TTS)合成解说词语音;
同步进行的环节是视频内容的生成,平台会对图文内容进行语义理解,根据文章内容自动搜索相关素材,再通过计算机视觉技术对素材进行分析和理解,然后精选出合适的素材进行智能剪辑合成;
最后一个环节是音视频的对齐,这就涉及到百度的第二代时间轴对齐算法,选取文本中的兴趣点,再将视频片段与兴趣点的相关度进行打分,优质的视频片段将优先放入时间轴,最终进行渲染输出。
此外,最近国内的3D短视频的一站式AIGC引擎技术服务提供商深氧科技完成了千万元级天使轮融资,引入GPT3.5、Transformer、Diffusion Model等AI技术红利,其发布的O3.xyz引擎V1.0版本支持一站式生成3D短视频内容,多位知名自媒体主都已宣布加入内测。
由此可见,跨模态AI生成视频行业正在急速发展中,用嘴做视频已经走进现实,未来在短视频、影视、设计、游戏、电商、数字艺术品等诸多行业都存在应用的可能。
ChatGPT带火的智能聊天机器人只是开端,人类即将开始全面拥抱人工智能。