1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

NVIDIA发布AI训练数据集生成器DatasetGAN

1987web2023-08-22人工智能AI139
NVIDIA的研究人员已经创建了DatasetGAN,一个用于生成带有注释的合成图像的系统,用于创建用于训练人工智能视觉模型的数据集。DatasetGAN可以用最少16幅人类注释图像进行训练,并执行需

NVIDIA的研究人员已经创建了DatasetGAN,一个用于生成带有注释的合成图像的系统,用于创建用于训练人工智能视觉模型的数据集。DatasetGAN可以用最少16幅人类注释图像进行训练,并执行需要100倍以上注释图像的全监督系统。

本文介绍了该系统和实验,将在即将召开的计算机视觉和模式识别会议(CVPR 2021)上介绍。DatasetGAN使用NVIDIA的StyleGAN技术生成真实感图像。人类注释器对图像中的对象部分进行详细的标签,然后对该数据进行解释器训练,以从样式的潜在空间生成特征标签。结果是一个系统,它可以生成无限数量的图像和注释,然后可以作为任何计算机视觉(CV)系统的训练数据集。

生成性对抗网络(GAN)是由两个深层学习模型组成的系统:学习创建真实数据的生成器和学习区分真实数据和发生器输出的判别器。经过培训,通常是单独使用生成器,只需生成数据。NVIDIA已经将GANs用于若干应用,包括其用于减少视频会议带宽的Maxine平台。2019年,NVIDIA开发了一种名为StyleGAN的干细胞,它可以产生真实感的人脸图像,并在流行网站上使用,此人不存在。去年,NVIDIA开发了一种样式的变体,可以作为输入所需的相机、纹理、背景和其他数据,以产生可定制的图像渲染。

尽管GANs可以产生无限多个唯一的高质量图像,但是大多数CV训练算法也要求图像上标注有关于图像中对象的信息。ImageNet是最受欢迎的简历数据集之一,以雇佣数万名员工使用亚马逊的Mechanical Turk为图片添加标签而闻名。尽管工作人员可以以几乎每分钟5张的速度对图像进行注释,但这些图像只是单个物体的简单图片。更复杂的视觉任务,如自动驾驶车辆所需的任务,需要具有语义分割的复杂场景图像,其中每个像素被标记为对象的一部分。根据NVIDIA的研究人员的说法,用50个物体标记一个复杂的场景可能需要30到90分钟。

NVIDIA对DatasetGAN的理解是,作为生成器输入的潜在空间必须包含有关生成图像的语义信息,因此可以用于为图像创建注释映射。研究小组通过首先生成几个图像并保存与之相关的潜在向量,为他们的系统创建了一个训练数据集。对生成的图像进行人工标注,并将潜在向量与这些标注配对进行训练。然后利用该数据集训练一组多层感知器(MLP)分类器作为风格解释器。分类器输入由GAN产生的特征向量组成,生成每个像素,输出为每个像素的标签;例如,当GAN生成人脸图像时,解释器输出指示人脸部分的标签,例如脸颊、鼻子或耳朵。

研究人员对翻译人员进行了训练,让翻译人员在生成的图像上贴上有经验的人类注释者的标签。这些图片是卧室、汽车、面孔、鸟和猫,每一类有16到40个例子。然后他们使用完整的数据集系统生成图像数据集,然后用于训练标准CV模型。研究小组使用了几种常见的CV基准,如Celeb-A和Stanford Cars,比较了他们在生成的数据集上训练的模型与使用当前最先进的转移学习和半监督技术训练的基线模型的性能。NVIDIA模型在所有基准测试中都显著优于基准测试,给出了相同数量的注释图像。

使用合成数据训练人工智能是一个活跃的研究课题,因为它减少了与数据集创建相关的成本和劳动力。移动机器人和自主车辆训练的一种常见技术是使用虚拟环境甚至视频游戏作为数据源。2015年,马萨诸塞大学洛厄尔分校的研究人员利用众包CAD模型训练图像分类器。2017年,苹果公司开发了一个系统,使用GAN提高简历训练合成图像的质量,但这项技术没有产生像素级的语义标签。

虽然NVIDIA有开源的StyleGAN,但是DatasetGAN的代码还没有发布。在Twitter上讨论这项工作时,合著者黄玲指出,这个团队正在工作