2018-11-19 00:52:01
一种新的深度CNN分类方法 用于着色

一种新的深度CNN分类方法 用于着色.jpg

斯坦福大学的一组研究人员最近开发了一种CNN分类方法,用于着色灰度图像。他们设计的工具,名为ColorUNet,从U-Net中汲取灵感,U-Net是一个完全卷积的图像分割网络。

“作为斯坦福大学计算机视觉课程的一部分,我们在这个项目上工作了几个月,”进行这项研究的研究人员之一Vincent Billaut告诉TechXplore。 “我们的目标是使用轻量级模型重现最先进的结果,而不是通过增加训练集的大小或计算复杂性来增强现有模型,这是CV问题中非常常见的方法。我们希望我们的结果是易于评估和视觉上的吸引力,因为除了有用和有影响力的应用程序,简历也是很酷的东西。“

Billaut和他的同事决定从分类角度自动着色灰度图像,使用一组有限的颜色可能性。他们的模型遵循了丢失和预测功能,有利于彩色图像而不是现实图像。

“我们不是试图通过回归任务直接预测颜色,而是通过分类任务将所有颜色分成垃圾箱,”参与研究的另一位研究员Marc Thibault告诉TechXplore。 “将问题表述为分类任务,可以让我们通过微调从网络输出中预测颜色的方式,更好地控制我们想要输出的颜色。”

研究人员在SUN和ImageNet数据集的子集上训练他们的模型,这些数据集包含景观图像。他们开发的神经网络架构允许他们的深度学习算法从每个灰度图像中提取局部和全局信息。

“然后,算法可以根据自己的方面以及周围环境决定区域的颜色,”Thibault说。 “总的来说,人工智能技术在现实生活中的决策制定必须利用本地精确的主题识别和对更广泛背景的理解。”

该研究的主要目标之一是开发一种可扩展的轻量级架构,同时还可以执行彩色化任务中最先进的模型。为了实现这一目标,研究人员将任务限制在自然景观的图像上。

“最重要的是,我们使用U-Net架构来提高性能并降低模型的复杂性,”进行这项研究的研究人员之一Matthieu de Rochemonteix告诉TechXplore。 “ColorUnet在所选择的子任务上接近最先进的性能。它的架构允许更快,更稳定的训练,而不需要牺牲模型的深度和代表性能力。”

在对景观图片进行评估时,ColorUNet取得了非常有希望的结果,数据增强显着提高了模型的性能和稳健性。研究人员还应用于模型到视频着色,提出了一种平滑帧间颜色预测的方法,而无需为顺序输入训练循环网络。

“这项技术的主要贡献在于能够通过向整个图像的上下文提供算法来了解图像在局部尺度上发生了什么,”Thibault说。 “虽然我们展示了其在图像着色方面的效率,但我们也在研究其他应用,特别是在医学领域。在斯坦福大学Gevaert实验室内,我们已将此方法应用于基于MRI扫描的胶质瘤(脑癌)患者的肿瘤检测研究在这个领域蓬勃发展,越来越多的CV技术应用于医学成像。“

猜您喜欢的其它内容