处理流程

复杂背景的处理流程分为如下几个步骤

  • 内容召回:通过目标检测网络召回元素,即元素是否需要做背景提取操作。
  • 区域判断:根据梯度等视觉方法判断所处区域是否是复杂区域。
  • 简单区域:基于梯度的方式找到背景区块。
  • 复杂区域:采用 SRGAN 网络进行内容提取。

内容召回

内容找回我们采用目标检测网络来实现,例如 faster-tcnn 或 mark-rcnn 等。如下图所示

图0:闲鱼如何处理 UI2CODE 复杂背景识别

区域判断

根据拉普拉斯算子计算周边梯度,判断所处区域是否是复杂区域。

简单背景

游戏目标检测模型本身等局限性,会导致无法达到限速级别等精准性,因此需要对位置做修正。如果是简单背景就可以基于梯度对思想做位置修正,具体计算方式如下

图1:闲鱼如何处理 UI2CODE 复杂背景识别

图2:闲鱼如何处理 UI2CODE 复杂背景识别

复杂背景

复杂背景时,上图是原图,下图是提取的文字区块。

图3:闲鱼如何处理 UI2CODE 复杂背景识别

图4:闲鱼如何处理 UI2CODE 复杂背景识别

此时提取出的框不是完全正确,那么此时根据梯度等机器视觉算法已经不能对位置做正确的修正了。本文提出了基于 GAN 网络的方式来解决复杂背景内容提取问题,网络的主要结构如下图所示

图5:闲鱼如何处理 UI2CODE 复杂背景识别

为什么选择 GAN 网络

  1. 基于 srGAN 网络,该网络加入了特征图的损失函数,这样可以很好保留高频信息,能更好的保留边缘。特征图的损失函数如下图所示

图6:闲鱼如何处理 UI2CODE 复杂背景识别

  1. 由于有对抗损失的存在,可以很好的降低误检率。
  2. 最重要的一点是在有透明度的场景下,语义分割网络只能“提取”元素,无法“还原”元素。而 GAN 网络不仅可以在提取元素的同时还原出未叠加时的像素情况。

网络训练流程图

图7:闲鱼如何处理 UI2CODE 复杂背景识别

针对业务场景针对 GAN 网络做的优化

  1. 由于我们不是超分辨率场景,因此不用 pixelShuffler 模块做上采样
  2. 由于场景比较复杂,可以引入 denseNet 和加深网络来提高准确率。
  3. 内容损失函数对于压制误判的噪点效果不理想,因此加大了误判的惩罚,具体如下图所示

图8:闲鱼如何处理 UI2CODE 复杂背景识别

结果图 1

图3:闲鱼如何处理 UI2CODE 复杂背景识别

图10:闲鱼如何处理 UI2CODE 复杂背景识别

结果图 2

图11:闲鱼如何处理 UI2CODE 复杂背景识别

图12:闲鱼如何处理 UI2CODE 复杂背景识别

结束语

本篇我们通过复杂背景内容提取的介绍,提出了一种机器学习为主,图像处理为辅去精确获取特定前景内容的方法,得到了高精确率、高召回率和高定位精度的识别结果。

下图分别是传统算法 grabcut,语义分割方法 deeplab 和本文方法的各个指标的情况。

图13:闲鱼如何处理 UI2CODE 复杂背景识别

本文转载自公众号闲鱼技术(ID:XYtech_Alibaba)

余下全文(1/3)
分享这篇文章:

请关注我们:

发表评论

电子邮件地址不会被公开。 必填项已用*标注