请输入关键字词

热门标签排行

网友热搜词排行

您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

AI图片识别技术又突破

1987web2023-08-31人工智能AI150

近日，一位来自伦敦帝国理工学院的中国留学生刘诗昆，发布了他们团队的研究成果。该研究成果为

近日，一位来自伦敦帝国理工学院的中国留学生刘诗昆，发布了他们团队的研究成果。该研究成果为Prismer（棱镜）: A Vision-Language Generative Model with Multi-Modal Experts（具有多模态专家的视觉语言生成模型）。

该模型是一种视觉-语言模型，使用多模态专家库。它由一个视觉编码器和一个自回归语言解码器组成。视觉编码器将RGB图像及其对应的多模态标签作为输入（三个低级视觉信号进行编码：深度，表面法线和边缘;以及三个高级视觉信号：对象标签、分割标签和文本标签。），并生成视觉特征。自回归语言解码器将视觉特征作为输入，并生成自然语言描述。

简单意思就是，只要你给出一张照片。AI就会看懂这张照片的内容，并形容出照片的内容，同时你也可以对AI进行询问。

该模型可以在10-20倍的训练数据，达到GIT相当的VQAv2的精度，要知道这之间训练的数据少了60倍。

下面就来看看具体的案例：

下面第一张照片就是原始照片，经过多模态专家库处理后会生成深度、表面法线、边缘、对象标签、分割标签和文本标签等多张图，然后使用Prismer进行整合并输出。

案例一：

输入原始照片：

多模型处理：

模型返回结果：一名棒球运动员向球挥舞球棒。A baseball player swinging a bat at a ball.

案例二：

输入原始照片：

多模型处理：

模型返回结果：

一个男人骑着滑板穿过人行横道。A man riding a skateboard across a cross walk.

案例三：

输入原始照片：

多模型处理：

模型返回结果：

一头大象站在一盒食物旁边。An elephant standing next to a box of food.

同样的，你也可以对模型询问，照片中的内容。

例如，案例一的类容，通过对话框询问AI，左边的这个男人在做什么？

AI给出的回答是：玩滑板。Skateboarding.

目前该项目已经开源并公布到GITHUB，并且在Hugging Face已经有了测试案例。可以进行体验。

https://github.com/NVlabs/prismer

https://huggingface.co/spaces/shikunl/prismer

上一篇

RGB－网页设计

CMYK－印刷

平面设计－AI软件常用基础操作

对于初学者来说，需要认识AI这款软件，基础常用的都有哪些功能需要设置和调整？

AI图像识别技术是什么？有哪些应用？

当前人工智能（AI）图像识别技术已经成为一个热门话题。它是一种基于计算机视觉和机器学习的技术，通过分析和理解图像内容，自动识别出图像中的人、物体、场景和特征。A

相关文章