最近读到《Learning to See in the Dark》这篇论文,觉得很有意思,所以在这里记录一下。
前言
ABSTRACT—摘要
翻译
精读
一、INTRODUCTION—简介
翻译
精读
二、RELATED WORKS—相关工作
2.1 Image denoising—图像降噪
翻译
精读
2.2 Low-light image enhancement—低光图像增强
翻译
精读
2.3 Noisy image datasets—带噪声图像数据集
翻译
精读
三、See-in-the-Dark Dataset —“夜视”数据集
翻译
精读
四、Method—方法
4.1 Pipeline—处理流程
翻译
补充(选看)
精读
4.2 Training—模型训练
翻译
精读
五、Experiments—实验
5.1 Qualitative results and perceptual experiments—定性结果与感知实验分析
翻译
A.Comparison to traditional pipeline—与传统处理流程的对比
B.Comparison to denoising and burst processing—与去噪及连拍处理的对比
C.Qualitative results on smartphone images—智能手机图像的定性结果
精读
5.2 Controlled experiments—控制实验
翻译
A.Network structure—网络结构
B.Input color space—输入色彩空间
C.Loss functions—损失函数
D.Data arrangement—数据排列
E.Postprocessing—后处理
精读
六、Discussion—讨论
翻译
精读
低光成像是一项挑战,主要由于光子数量少和信噪比(SNR)低。短曝光图像容易受到噪声影响,而长曝光虽能增加亮度,却可能导致模糊且往往不切实际。虽然已提出多种去噪、去模糊和增强技术,但在极端条件下,如夜间视频速率成像时,它们的有效性有限。为了支持基于学习的低光图像处理流程的开发,我们引入了一组包含原始短曝光低光图像及其对应长曝光参考图像的数据集。利用这一数据集,我们基于全卷积网络的端到端训练,开发了一套低光图像处理流程。该网络直接在原始传感器数据上操作,取代了大部分传统图像处理流程,后者在处理这类数据时往往表现不佳。我们在新数据集上报告了有前景的结果,分析了影响性能的因素,并突出了未来工作的机会。
任何的图像成像系统都存在噪声,但这很大地影响在弱光条件下图像的质量。高ISO 可以用于增加亮度,但它同时也会放大噪音。诸如缩放或直方图拉伸等图像后处理可以缓解这种噪声影响,但这并不能从根本上解决低信噪比 (SNR) 问题。在物理学上,这可以解释为在弱光条件下增加SNR,包括开放光圈,延长曝光时间以及使用闪光灯等,但这些也都有其自身的缺陷。例如,曝光时间的延长可能会引起相机抖动或物体运动模糊。
众所周知,暗光条件下的快速成像系统一直都是计算摄影界的一大挑战,也是一直以来开放性的研究领域。目前,许多关于图像去噪,去模糊和低光图像增强等技术相继提出,但这些技术通常假设这些在昏暗环境下捕获到的图像带有中等程度的噪音。相反,我们更感兴趣的是在极端低光条件下,如光照严重受限 (例如月光) 和短时间曝光 (理想情况下是视频率) 等条件下的图像成像系统。在这种情况下,传统相机的处理方式显然已不适用,图像必须根据原始的传感器数据来重建。
为此,本文提出了一种新的图像处理技术:通过一种数据驱动的方法来解决极端低光条件下快速成像系统的挑战。具体来说,我们训练深度神经网络来学习低光照条件下原始数据的图像处理技术,包括颜色转换,去马赛克,降噪和图像增强等。我们通过端对端的训练方式来避免放大噪声,还能表征这种环境下传统相机处理的累积误差。
据我们所知,现有用于处理低光图像的方法,在合成数据或真实的低光图像上测试都缺乏事实根据。此外,用于处理不同真实环境下的低光图像数据集也相当匮乏。因此,我们收集了一个在低光条件下快速曝光的原始图像数据集。每个低光图像都有对应的长曝光时间的高质量图像用于参考。在新的数据集上我们的方法表现出出色的结果:将低光图像放大300倍,成功减少了图像中的噪音并正确实现了颜色转换。我们系统地分析方法中的关键要素并讨论未来的研究方向。
下图1展示了我们的设置。我们可以看到,在很高的ISO 8,000条件下,尽管使用全帧的索尼高光灵敏度相机,但相机仍会产生全黑的图像。在ISO 409,600条件下,图像仍会产生朦胧,嘈杂,颜色扭曲等现象。换而言之,即使是当前最先进的图像去噪技术也无法消除这种噪音,也无法解决颜色偏差问题。而我们提出的全卷积网络结构能够有效地克服这些问题。
图1卷积网络下的极端低光成像。黑暗的室内环境::相机的照度 <0.1 lux。Sony α7S II传感器曝光1/30秒。左图:ISO 8,000相机产生的图像。中间图:ISO 409,600相机产生的图像,图像受到噪声和颜色偏差的影响。右图:由我们的全卷积网络生生的图像。
问题背景:
核心:利用深度神经网络进行数据驱动的图像处理,改进极端低光环境中的快速成像质量。通过端到端训练,该方法整合颜色转换、去马赛克、降噪及图像增强等功能,直接从低光原始数据重建高清图像,有效控制噪声,优化了传统技术的局限。
贡献与创新点:
在文献中对低光图像的计算处理进行了广泛的研究。我们提供了现有方法的简要综述。
图像去噪是低级视觉领域一个发展成熟的话题。多种方法已被提出,利用的技术包括总变分[36]、小波域处理[33]、稀疏编码[9, 28]、核范数最小化[12]以及三维变换域滤波(BM3D)[7]等。这些方法通常基于特定的图像先验知识,如平滑性、稀疏性、低秩或自相似性。研究者还探索了深度网络在去噪中的应用,涉及堆叠的稀疏去噪自编码器(SSDA)[39, 1]、可训练的非线性反应扩散(TNRD)[6]、多层感知器[3]、深度自编码器[26]以及卷积网络[17, 41]。当针对特定噪声水平进行训练时,这些数据驱动的方法能与诸如BM3D和稀疏编码等经典技术的最先进成果相竞争。遗憾的是,大多数现有方法都是在合成数据上进行评估的,比如添加了高斯或椒盐噪声的图像。最近一项使用真实数据的细致评估发现,在真实图像上,BM3D胜过了一些较新的技术[32]。同时,联合去噪和去马赛克也得到了研究,包括最近使用深度网络的工作[15, 10],但这些方法是在合成的Bayer模式和合成噪声上进行评估的,而非在极端低光环境下收集的真实图像上。
除了单幅图像去噪外,多幅图像去噪也被考虑,因为能从场景中收集更多信息,从而达到更好的效果[31, 23, 19, 24, 14, 29]。特别是,刘等人[24]和Hasinoff等人[14]建议对来自同一场景的一系列图像进行去噪。尽管这些流程通常有效,但可能相当复杂,涉及到参考图像选择(“幸运成像”)和跨图像的密集对应估计。所以我们专注于一条互补的研究路线,研究单幅图像处理可以被推进到何种程度。
现有方法的不足:大多数现有方法都是在合成数据上进行评估的,而非真实图像,在真实图像上,BM3D胜过了一些较新的技术。而通过多幅图像去噪,流程虽然有效,但可能相当复杂。
思路:专注于一条互补的研究路线,研究单幅图像处理可以被推进到何种程度。
为了提升低光环境下的图像对比度,已经有许多技术手段被应用。其中一种经典方法是直方图均衡化,它能够平衡整张图像的亮度分布。另一种广泛应用的技术是伽玛校正,该技术能够在提亮较暗区域的同时,压缩亮度较高的像素点。更先进的方法则会进行更全面的分析和处理,比如利用反向暗通道先验[8, 29]、小波变换[27]、视网膜模型[30]以及光照图估计[13]等技术。然而,这些方法通常假定图像本身已经较好地表现了场景内容,并没有明确地对图像噪声进行建模,一般仅在后期处理时采用现成的去噪技术。
相比之下,我们关注的是极端低光成像情况,这时候图像会有很大的噪声和颜色失真问题,这些问题已经超出了现在常用的图像改善技术能处理的范围。
结论:现在常用的图像改善技术不能很好的解决极端低光成像情况下图像的噪声和颜色失真问题。
尽管图像去噪领域已有大量研究,但大多数现有方法都是在合成数据上进行评估的,比如原本干净的图像上叠加高斯噪声或椒盐噪声。RENOIR数据集[2]被提出用于以真实的含噪图像来衡量去噪效果。然而,文献中提到[32],RENOIR数据集中的图像对存在空间不对齐的问题。在低光条件下,人们曾尝试使用图像序列(称为“连拍”)来减少噪声[24],但相关的数据集中并没有可靠的地面真实数据(即未受噪声影响的原始图像)。Google的HDR+数据集[14]并未聚焦于极端低光环境下的成像:该数据集中的大部分图像都是在白天拍摄的。最近发布的达姆施塔特噪声数据集(DND)[32]旨在满足去噪领域对于真实数据的需求,但这些图像同样是在白天采集的,不适合用来评估低光图像处理的效果。据我们所知,目前还没有公开包含原始的低光图像及其对应的地面真实数据的数据集。因此,我们收集了这样一个数据集,以支持该领域中系统性的、可重复的