您当前所在位置: 逸达平台注册 > 逸达平台注册 >
逸达平台注册 华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota
作者:admin    发布时间: 2021-09-09 15:30

 

参数目和模型的性能有绝对有关吗?苏黎世华人博士挑出SwinIR模型,实验终局通知你,越幼的模型还能够更强!SwinIR行使Transformer力压CNN,又在图像修复周围屠榜,模型参数目降矮67%,再也不要唯参数目论铁汉了!

7月9日,当地媒体开始报道针对伊朗火车系统的网络攻击,黑客在火车站的显示屏上涂鸦以要求乘客拨打伊朗最高领袖哈梅内伊办公室的电话号码“64411”。

 马云支持“996”,李国庆反对“996”

据日本放送协会(NHK)报道,东京奥运会目前正在如火如荼地进行中。奥运期间,伪装成手机运营商进行网络欺诈案件数量有上升的趋势,日本各大通信商呼吁用户加强防范。

【51CTO.com原创稿件】亚马逊云科技技术峰会一直都是业界云计算技术风向标,同时也深受开发者以及技术人员的青睐。早在2014年,亚马逊云科技还未正式在中国商用时,便开始了技术布道。而亚马逊云科技技术峰会也不同于其他厂商的会议,会更加注重技术,让与会者更深入地理解云计算的知识,了解如何以最高效的方式使用亚马逊云科技的技术,打造自己的云或云服务。

图像修复(image restoration)是一个受到永远关注和钻研的最基础的CV题目,它能够从矮质量的图像,例如缩略图、有噪音的图或是压缩图像中恢复为原起高质量图像。

但现在图像修复周围的sota手段都是基于卷积神经网络CNN的,但是很稀奇人尝试行使Transformer,尽管ViT在高级视觉义务中早已占有排走榜众年。

来自苏黎世联邦理工学院的华人博士挑出一个适用于图像修复的模型SwinIR,主要包括浅层特征挑取、深层特征挑取和高质量图像重修三片面。

实验终局表明SwinIR的性能比现在sota手段挑高了0.14-0.45dB,并且参数目还降矮了67%。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

论文地址:https://arxiv.org/abs/2108.10257

项现在地址:https://github.com/JingyunLiang/SwinIR

大无数基于CNN的手段偏重于邃密的架构设计,如residual learning和dense learning逸达平台注册,始末奥妙的模型设计来升迁性能,添大模型容量。

固然与传统的基于模型的手段相比CNN的性能有了隐微的挑高,但清淡会遇到两个源于卷积层的基本题目:

1)图像和卷积核之间的交互与内容无关。行使相通的卷积核来恢复迥异的图像区域能够不是最佳选择;

2)原由CNN更关注片面特征,于是卷积对于长倚赖性、全局的特征建模是终局不好。

在这栽情况下,很容易想到Transformer来替代CNN。Transformer的自仔细力机制能够很好地捕获上下文之间的全局交互,并在众个视觉义务上具有出了卓异的外现。

然而,用于图像修复的ViT必要将输入图像分割为具有固定大幼(例如48×48)的patch,并对每个片面进走单独处理。

这栽策略不可避免地会产生两个弱点:

1)边界像素不克行使块外的相邻像素进走图像恢复;

2)恢复的图像能够会在每个图像块周围引入边界假影。

固然这个题目能够始末patch重叠来缓解,但它会带来额外的计算义务。

模型设计

SwinIR的设计基于Swin Transformer,包括三个片面:

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

1)浅层特征抽取shallow feature extraction

浅层特征挑取模块采用卷积层挑取浅层特征,并将浅层特征直接传输到重构模块,以保留矮频新闻。

2)深层特征抽取deep feature extraction

深层特征挑取模块主要由residual Swin Transformer Block(RSTB)构成构成,每个块行使众个Swin Transformer layer(STL)进走片面仔细力和交叉窗口的交互。此外,还在块的末了增补一个卷积层以添强特征,并行使残差连接为特征聚相符挑供迅速手段,也就是说RSTB由众个STL和一个卷积层共同构成残差块,

3)高质量图像重修high-quality(HQ) image reconstructi

重修模块是末了一步,融相符了浅层和深层特征用了恢复高质量的图像。

在实验方面,作者最先钻研了通道数,RSTB数现在和STL数现在对终局的影响。能够不悦目察到PSNR与这三个超参数正有关。对于信道数,固然性能不息挑高,但参数目呈二次添长。为了均衡性能和模型尺寸,在剩下的实验中选择180行为通道数。对于RSTB数和层数,性能添好逐渐饱和,于是后续实验竖立为6以获得一个相对较幼的模型。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

和经典的图像超分辨率(super-resolution, SR)模型对,包括DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA和IPT。能够望出,当在DIV2K数据上进走训练时,SwinIR在几乎一切五个基准数据集的一切比例因子上都取得了最佳性能,在Manga109在4倍缩放上的最大PSNR添好达到0.26dB。

不过必要仔细的是,RCAN和HAN引入了通道和空间仔细力,IGNN挑出了自适宜patch特征聚相符,NLSA基于非片面仔细机制。一切这些基于CNN的仔细机制的外现都不如所挑出的基于Transformer的SwinIR,这也外清新文中所挑出模型的有效性。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

当在更大的数据集(DIV2K+Flickr2K)上训练SwinIR时,性能进一步大幅度挑高,也实现了比基于Transformer的模型IPT更好的精度,达到0.47dB。即使IPT在训练中行使ImageNet(超过一百三十万图像),并且具有超过一亿的参数。相比之下,即使与基于CNN的sota模型相比,SwinIR的参数也很少(1500万-4430万)。

在运走时方面,与基于CNN的代外性的模型RCAN相比,IPT和SwinIR在1024×1024别离必要约0.2、4.5和1.1秒。

实验终局

从可视化终局来望,SwinIR能够恢复高频细节并减轻暧昧弱点,并产生锐利且自然的边缘。

相比之下,大无数基于CNN的手段会产生暧昧的图像,甚至是不切确的纹理。与基于CNN的手段相比,IPT生成的图像更好,但它存在图像失真和边界假影。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

在图像降噪义务上,比较的手段包括传统模型BM3D和WNNM,基于CNN的模型DnCNN,IR-CNN,FFDNet,N3Net,NLRN,FOC-Net,RNAN,MWCNN和DRUNet。能够望到SwinIR模型比一切手段都强。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

稀奇是它在具有100个高分辨率测试图像的大型Urban100数据集上始末最先辈的DRUNet模型,最高可达0.3dB,并且SwinIR只有1200万的参数,而DRUNet有三亿参数,也就能侧面表明SwinIR的架构在学习用于图像恢复的特征外示方面是高效的。

华人博士挑出模型SwinIR,33%的参数目就碾压图像修复周围sota

SwinIR模型能够往除主要的噪声作梗并保留高频图像细节,从而获得更清亮的边缘和更自然的纹理。相比之下,其他手段要么过于光滑,要么过于锐利,无法恢复雄厚的纹理。

【编辑选举】逸达平台注册

人造智能将刷新各大走业 AI醒悟有众可怕!人造智能否取代人类地位,成为新的地球霸主? 人造智能伦理的曙光 关于自然说话处理之One Hot模型 一个神经元顶5到8层神经网络,深度学习的计算复杂度被生物碾压了

Powered by 逸达平台注册 @2018 RSS地图 HTML地图