加入收藏 | 设为首页 |

星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景

海外新闻 时间: 浏览:479 次
星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景

正如任何热心的读者都会做到的那样,只需精心选择几个词汇,就能幻想出杂乱的场景。但是,人工智能体系在将文本描绘转换成图片的使命上遇到了困难。现在,来自微柔和JD人工智能试验室的研讨人员提出了一种依据方针驱动的专心生成对立网络(Obj-GAN)的新模型,该模型可以依据一个简略的短语或描绘性文本语句生成相星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景对杂乱的场景。

Obj-GAN的生成器辨认描绘性单词和方针级信息,逐渐细化组成图画,在图画细节和成分元素之间的联系方面改进了之前的前沿模型。

下面是运用不同人工智能技术生成的实在图片和文本描绘图画的比较。研讨结果表明,跟着描绘的杂乱化,Obj-GAN与其他GANs比较,越来越可以将文本转换成传神的图画。

经过测验Obj-GAN的星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景泛化才能,研讨人员发现,该模型会依据在实际国际中没有多大含义的文本输入生成物理或联系不合理的图画。例如:

从文本生成图画的一个困难是,怎么让人工智能体系了解场景中多个方针之间的联系。曾经的办法运用图画描绘对,它们仅为单个方针供给粗粒度的信号,因而即使是这种类型的最佳模型也难以生成包括以合理装备摆放的多个方针的图画。

为了处理这个问题,研讨人员提出了一种新的方针驱动注意力机制,将图画生成分为两个过程:

首要,研讨人员运用seq2seq重视模型,将文本转换为语义布局,比方边框和形状。

然后,一个多级注意力图画生成器在上述布局的基础上创立一个低分辨率的图画,经过重视最相关的单词和预先生成的类标签,在不同区域细化细节。研讨人员还规划了分段和方针分类器,以确认组成的图画是否与文本描绘和预先生成的布局匹配。

在他们的试验中,研讨人员发现Obj-GAN在各种COCO基准测验使命上优于之前的SOTA办法,使Inception的分数提高了27%。

该论文经过对立性练习,完成了依据方针驱动的文本到图画的组成。Obj-星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景GAN模型和代码已经在GitHub上开源。

新浪声明:新浪网登载此文出于传递更多信息之意图,并不意味着附和其观点或证明其描绘。

星期一到星期日的英文-微软Obj-GAN可将文字转换成杂乱的场景

新浪5G商业处理方案中心