乐鱼电竞登录:这个GAN没见过猪却能把狗变成猪

发布时间:2021-09-03 14:05:27 来源:leyu乐鱼电竞 作者:leyu乐鱼电竞官网

  来自特拉维夫大学和英伟达的研究人员成功地盲训出范畴自适应的图画生成模型——StyleGAN-NADA。

  也便是只需用简略地一个或几个字描绘,一张方针范畴的图画也不需求,StyleGAN-NADA就能在几分钟内练习出你想要的图片:

  比方现在在几张狗狗的根底图片上输入“Sketch”,不到1分钟,一张张草图风格狗的图片就出来了。(视频没有声音可定心“食用”)

  CLIP是OpenAI提出的依据文字生成图片的DALL模型的图画分类模块,能够依据文字描绘给图片的匹配程度打分。

  总的来说,StyleGAN-NADA的练习机制包含两个严密相连的生成器Gfrozen和Gtrain,它俩都运用了StyleGAN2的体系结构,并同享同一个映射网络,因而也具有同一个隐空间(latent space)和隐码(latent code),所以它们在最开端生成的图画是相同的。

  首要运用在单个源域(例如人脸、狗、教堂或轿车数据集)上预练习的模型权重初始化这两个生成器。

  因为最终方针是生成一个风格不相同的图画,那就要更改其间一个成对生成器的域,一起坚持另一个作为参阅域。

  而Gtrain的域在经过用户供给的文本方向进行更改(shift)的一起,会坚持同享隐空间(latent space)。

  这就用到了一组根据CLIP的丢失(loss)和“分层冻住”(layer-freezing)计划。

  该计划能够自适应地确定在每次迭代练习中最相关的子层、并“冻住”其他层来进步练习稳定性确保作用。下面就具体介绍一下这两个办法。

  StyleGAN-NADA依托预先练习的CLIP作方针域的仅有监督来历。为了有效地从CLIP中提取“常识”,总共用了三种丢失算法:

  (1)担任确定在每次迭代中练习哪个子集层的大局方针丢失 (Global CLIP loss);

  (3)以及避免图画生成不必要的语义伪影的嵌入范数丢失 (Embedding-norm Loss)。

  (1)选层阶段,坚持一切网络权重不变并对一组隐码进行优化,然后挑选改变最明显的一层(优化运用方针域文本描绘驱动的大局CLIP丢失进行);

  首要,该模型能够完结规模广泛的域外自适应,从纹路改变到大的形状修正,从现实到魔幻风格……乃至包含一些搜集高质量数据本钱很高的方针域。

  其次,一切的这些图片的生成都只需给一个简略的文字描绘,除了极点状况,大多数练习只需几分钟就能完结。

  关于根据纹路的修正方针,该模型一般需求300次迭代,batch size为2,在一个NVIDIA V100 GPU上练习大约3分钟。在某些状况下(比方从“相片”到“草图”),练习只需不到一分钟的时刻。

  然后,一切的试验用的便是这个完好当然模型,没有增加任何latent mapper。研究人员发现,关于纯粹是根据款式的图画生成,模型需求跨一切层进行练习,比方下面这种:

  最终,将该模型与StyleCLIP(结合了StyleGAN和CLIP的域内图画编辑模型)、以及只用了Gfrozen生成器的模型比照发现,只要StyleGAN-NADA能够完结方针。

  再将零样本的StyleGAN-NADA与一些少样本的图画生成模型比照发现,其他都要么过拟合要么溃散(MineGAN更是只记住了练习集图画),只要StyleGAN-NADA在坚持多样性的状况下成功生成(但它也有伪影呈现)。

  因为这项技能,或许在不久的将来,这类图画生成的作业将不再遭到练习数据的束缚,而只取决于咱们的创造力。

咨询热线:400-029-2366
公司地址:陕西省西安市高新区科技路都荟国际A座1302室
拓展基地:西安市秦岭祥峪森林公园卓远拓展训练基地

在线咨询
全国咨询热线

400-029-2366