图像与JPG格式图像的对比,你会用吗?

凹神庙量子比特报告中的肖肖 | 公众号QbitAI

还在为图片加载而烦恼吗?

最新的好消息是,谷歌团队采用了 HiFiC,一种结合了 GAN 和基于神经网络的压缩算法的图像压缩方法,即使在比特率被高度压缩的情况下,仍然可以高保真地还原图像。

GAN(Generative Adversarial Networks,生成对抗网络),顾名思义,系统允许两个神经网络相互“训练”,一个神经网络负责生成接近真实的数据,另一个神经网络负责区分真实数据和生成数据之间。简单来说,一个神经网络“赝品”,另一个神经网络“赝品”,当系统达到平衡状态时,生成的数据会看起来非常接近真实数据,达到“赝品”的效果.

下面是该算法显示的图像与JPG格式图像的对比。

可以看出,当图片大小相近时(HiFiC大小为74kB神经网络算法c语言版,JPG图片大小为78kB),算法展示出来的图片压缩效果要好很多。

与原图相比,HiFiC显示的还原效果还是很不错的。(不是真的在原图中间画了一条线吗?)

目前处于特殊时期,大量国外网友仍居家隔离,Netflix和YouTube的播放量猛增,一些视频网站甚至被迫降低在线视频播放的清晰度以适应激增在数据量上。

但看惯了高清视频的网友们神经网络算法c语言版,自然吐槽突如其来的“一击模糊”。

用一位网友的话来说,如果类似的技术能应用到视频行业,相信Netflix和YouTube都会非常高兴。毕竟,这种高清低码率的图像还原实在是太诱人了。

哇,我相信如果 Netflix 和 YouTube 可以对视频做同样的事情,他们会很高兴的。

其实在了解了HiFiC算法的原理之后,你会发现实现起来确实不难。

接近原始图像的图像重建算法

此前,相关研究已经将神经网络用于图像压缩算法,而随着近年来生成对抗网络的兴起,也有很多算法使用 GAN 来生成假图像。

如果有办法将两者结合起来,图像压缩的效果会不会更好,更接近人的感知?

图像压缩模型是根据两者的特点设计的。在基于神经网络的图像压缩算法的基础上,利用 GAN 进一步使生成的图像更接近人类视觉,实现图像大小和视觉感知的平衡。

可以看出HiFiC的架构主要分为4个部分,其中E是encoder,G是generator,D是discriminator,P是E的输出E(x)的概率模型(表示为y 这里) ,即用 P 对 y 的概率分布进行建模。

GANs操作的核心思想是架构中的生成器G需要通过某种方法“欺骗”判别器D来判断样本为真。

概率模型P是实现这一步的条件。

然后,将 E、G、P 参数化为卷积神经网络,这样这些网络就可以在率失真优化的条件下进行联合训练。

同时,研究人员还对现有的几种 GANs 算法架构进行了微调,使其更适合 HiFiC 架构。

图片[1]-图像与JPG格式图像的对比,你会用吗?-老王博客

研究发现,将 GAN 与深度学习相结合的 HiFiC 算法取得了意想不到的效果。

模型评估

下图是使用当前几种主流的图像质量评估标准将几种前沿的图像压缩算法与HiFiC算法进行比较的结果。

图中,评价标准后面的箭头表示数据越低(↓)或数据越高(↑)表示画质越好。

为了更好的对比,结果分别是HiFiC算法(图中红点连接)、没有GANs的比较算法(图中橙色方块连接)和目前更先进的M&S算法(蓝色连接)图中的正方形)和 BPG 算法(由图中的蓝点连接)。

从结果来看,HiFiC算法在FID、KID、NIQE、LPIPS等几个评价标准中表现最好,在MS-SSIM和PSNR标准中表现一般。

从评价标准之间的差异可以看出,每个图像质量标准并不一定是判断压缩技术的最佳方式。

用户评价对比

毕竟,图片是用来观看的,最终的判断还得交给用户。

图像是否“清晰”在一定程度上取决于人眼的判断。

为此,团队采用了一种研究模式,让部分志愿者参与算法的比对。

他们首先展示了一张测试图像的随机裁剪,当志愿者对裁剪感兴趣时,他们使用这部分来比较所有算法。

在将原始图像与算法处理后的图像进行比较后,志愿者选择了他们认为“视觉上”更接近原始图像的压缩算法。

选择好所有算法后,会出现一个排名来衡量HiFiC的实际效果。(其中,HiFiC的下标Hi、Mi、Lo分别为从高到低设置3种不同码率阈值的算法)

在上图中,分数越低,图像对用户来说就越“清晰”。从图中可以看出,0.237bpp压缩效果下的HiFiC(Mi)在用户心目中比0.504bpp的两倍码率的BPG算法还要好。

即使压缩效果达到0.120bpp,也比0.390bpp的BPG算法要好。

这项研究再次推动了图像压缩技术的发展。正如网友所说,随着图像压缩技术的发展,在线观看4K电影可能真的会实现。

关于作者

Fabian Mentzer 目前正在瑞士苏黎世联邦理工学院进行计算机视觉研究。他的研究兴趣包括深度学习、图像压缩、前馈神经网络和图像分类。

本文主要工作由 Fabian Mentzer 在 Google 学习期间完成,其他三位作者均来自 Google 团队。

目前,该项目的源码和训练好的模型即将发布,小伙伴们可以点击下方传送门查看最新进展。

门户网站

项目地址:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论