乐鱼电竞登录:敞开生成式视频紧缩:谷歌依据GAN来完成功能与HEVC适当

发布时间:2021-09-03 14:05:38 来源:leyu乐鱼电竞 作者:leyu乐鱼电竞官网

  一般,视频紧缩的方针是经过运用时刻和空间冗余来下降存储视频所需的比特率,一起保存视觉内容,现在广泛运用的办法对错神经规范编解码器(例如 H.264/AVC 、H.265/HEVC)。一些研讨标明,神经网络在学习视频紧缩方面取得了更好的发展,最新的办法在峰值信噪比(PSNR)方面可以与 HEVC 相媲美,或许在 MS-SSIM 方面优于 HEVC。可是,由于很少有研讨者发布重制后的视频,这些办法尚未在片面视觉质量方面进行评价。

  来自谷歌的研讨者提出了一种依据生成对立网络 (GAN) 的神经视频紧缩办法,该办法优于曾经的神经视频紧缩办法,而且在用户研讨中与 HEVC 功能适当。研讨者提出了削减时刻累积差错的办法,该累积差错由递归帧紧缩引起,该办法运用随机移位和非移位,由频谱剖析驱动。论文具体介绍了网络规划的挑选以及重要性,并论述了在用户研讨中评价视频紧缩办法的应战。

  该研讨提出了首个在视觉质量方面与 HEVC 具有竞争性的神经紧缩办法,这是在用户研讨中衡量的。研讨标明,在 PSNR 方面具有竞争力的办法在视觉质量方面的体现要差得多; 该研讨提出了一种削减打开时时刻差错累积的技能,该技能经过随机移动残差输入,然后坚持输出不变,鼓励频谱剖析,研讨标明该技能在体系和 toy 线性 CNN 模型中具有有效性; 该研讨探究了由用户研讨丈量的视觉质量与可用视频质量目标之间的相关性。为了促进未来的研讨,研讨者发布了对 MCL-JCV 视频数据集的重建以及从用户研讨中取得的一切数据(附录 B 中的链接)。 研讨办法

  下图为该研讨运用的网络架构,其间 x = {x_1, x_2, . . . } 为帧序列,x_1 为初始帧 (I)。该研讨在低推迟形式下操作,因而可以从从前的帧中猜测后续 (P) 帧,设

  灰色框是中心张量的可视化成果。灰线左边是 I-frame 分支(蓝色代表用 CNN 学习),右侧是 P-frame 分支(绿色代表用 CNN 学习)。虚线在解码期间没有被激活,判别器 D_I、D_P 仅在练习期间激活。CNN 的巨细大略地标明晰它们的容量。SG 是中止梯度操作,Blur 是尺度空间含糊,Warp 是双三次歪曲, UFlow 是冻住光流模型。

  在 I-frame 中组成可信的细节; 尽可能明晰地传递这些可信细节; 关于出现在 P-frame 中的新内容,研讨者期望可以组成可信细节。

  论文中的公式是依据 HiFiC 的。运用条件 GAN,其间生成器和判别器都可以拜访额定的标签:公式假定数据点 x 和标签 s 遵从联合散布 p(x, s)。生成器将样本 y p(y) 映射到散布 p(xy),而判别器用来猜测给定对 (x, s) 是否来自 p(xs) 而不是来自生成器。

  在设置中需求处理帧序列和重建。在 HiFiC 之后,研讨者在潜在 y 上调理生成器和判别器,关于 I-frame,y = yI,关于 P-frame,y = y_t,r。为了简化问题,该研讨的方针是对每帧散布进行匹配,即关于 T 长度的视频序列,方针是取得一个模型 s.t.:

  正如文中所说到的,「低推迟」设置的循环性质在时域中的泛化具有应战性,这可能会产生过错传达。抱负情况下,只需研讨评价的内容至少 T = 60 帧,就可以运用序列进行练习,但实际上由于内存约束,这在当时硬件上是不可行的。尽管咱们最多可以将 T = 12 放入加快器中,但这样会使练习模型会变得十分慢。

  为了加快原型规划和练习新模型,以及避免打开(unrolling)问题,该研讨选用以下练习计划。

  该研讨将其分为进程 1) 和 2),由于经过练习的 E_I、 G_I 可以从头用于 P-frame 分支的许多变体,而且跨运转同享 E_I、 G_I 使其更具可比性。

  运用份额操控器在练习期间操控速率:超参数 _R 用来操控比特率和其他丢失项(例如 GAN 丢失等)之间的权衡。

  数据集:练习数据包含大约 992000 个时刻 - 空间裁剪视频集,每个视频集长度 T 为 12 帧,每帧画面巨细为 256×256,从 YouTube 的揭露视频中获取。这些视频的分辨率至少为 1080p,长宽比至少为 16:9,帧率至少为 30 fps。

  模型和基准:基线称为「MSE-only」,而且该基准运用了与研讨所用相同的架构和练习进程,但没有运用 GAN 丢失。试验还与尺度空间流(Scale-Space Flow,SSF)进行了比较,这是最近的神经紧缩办法,在 PSNR 方面与 HEVC 适当。最终,该研讨与无学习的 HEVC 进行了比较。

  研讨者在图 1 中总结了评分者偏好,并在图 7 中展现了功能目标。该研讨与三种比特率下的 HEVC 进行了比较,成果证明该研讨所用办法与 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下作用更佳(18vs9),在 0.22bpp 下功能也不错(16vs9)。

  为了评价 GAN 丢失对视觉质量的影响,研讨者在低速率 ( 0.064 bpp) 下将 GAN 丢失与 MSE-only 和 SSF 进行了比较。如图 1 所示,在 MSE-only 下,在 30 次成果中只要 4 次成果较好,4 次平局,成果标明晰 GAN 丢失的重要性,而且 SSF 没有一次是首选、没有平局。研讨者着重 MSE-only 仅在 PSNR 方面与 HEVC 适当(图 7),但在视觉质量方面显着更差。

  研讨发现,下列组件对功能的提高至关重要:不运用「free latent」会引起含糊的重建作用,这类似于 MSE-only 基线 顶部所示。研讨发现,运用「free latent」而不运用条件判别器也会导致含糊的重建作用。当信息不传递给 UFlow 时,试验成果会得到前后不一致的流,当信息传递给 UFlow 时,但没有运用流丢失正则化(即公式 6),试验成果也不抱负。因而,删去任何一个组件都会危害时刻一致性,参见图 3 底部。

  整体来说,没有一个目标可以猜测图 1 中的成果,可是 PIM 和 LPIPS 对一些比较进行了正确的排序。在神经图画紧缩范畴现已调查到了这种成果,其间最好的办法是由人类来排序的,由于现在还没有一种衡量规范可以依据片面质量来精确地对这些办法进行排序。

  每日头条、业界资讯、热门资讯、八卦爆料,全天盯梢微博播报。各种爆料、内情、花边、资讯一扫而光。百万互联网粉丝互动参加,TechWeb官方微博等待您的重视。

咨询热线:400-029-2366
公司地址:陕西省西安市高新区科技路都荟国际A座1302室
拓展基地:西安市秦岭祥峪森林公园卓远拓展训练基地

在线咨询
全国咨询热线

400-029-2366