1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

AI图片识别技术又突破

1987web2023-08-31人工智能AI96
近日,一位来自伦敦帝国理工学院的中国留学生刘诗昆,发布了他们团队的研究成果。该研究成果为

近日,一位来自伦敦帝国理工学院的中国留学生刘诗昆,发布了他们团队的研究成果。该研究成果为Prismer(棱镜): A Vision-Language Generative Model with Multi-Modal Experts(具有多模态专家的视觉语言生成模型)。

该模型是一种视觉-语言模型,使用多模态专家库。它由一个视觉编码器和一个自回归语言解码器组成。视觉编码器将RGB图像及其对应的多模态标签作为输入(三个低级视觉信号进行编码:深度,表面法线和边缘;以及三个高级视觉信号:对象标签、分割标签和文本标签。),并生成视觉特征。自回归语言解码器将视觉特征作为输入,并生成自然语言描述。

简单意思就是,只要你给出一张照片。AI就会看懂这张照片的内容,并形容出照片的内容,同时你也可以对AI进行询问。

该模型可以在10-20倍的训练数据,达到GIT相当的VQAv2的精度,要知道这之间训练的数据少了60倍。

下面就来看看具体的案例:

下面第一张照片就是原始照片,经过多模态专家库处理后会生成深度、表面法线、边缘、对象标签、分割标签和文本标签等多张图,然后使用Prismer进行整合并输出。

案例一:

输入原始照片:

多模型处理:

模型返回结果:一名棒球运动员向球挥舞球棒。A baseball player swinging a bat at a ball.

案例二:

输入原始照片:

多模型处理:

模型返回结果:

一个男人骑着滑板穿过人行横道。A man riding a skateboard across a cross walk.

案例三:

输入原始照片:

多模型处理:

模型返回结果:

一头大象站在一盒食物旁边。An elephant standing next to a box of food.

同样的,你也可以对模型询问,照片中的内容。

例如,案例一的类容,通过对话框询问AI,左边的这个男人在做什么?

AI给出的回答是:玩滑板。Skateboarding.

目前该项目已经开源并公布到GITHUB,并且在Hugging Face已经有了测试案例。可以进行体验。

https://github.com/NVlabs/prismer

https://huggingface.co/spaces/shikunl/prismer

RGB-网页设计

CMYK-印刷