Faster RCNN论文阅读笔记

论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
论文地址:https://arxiv.org/pdf/1506.01497.pdf
项目地址:Matlab版本Python版本

本文发表于NIPS 2015,是继RCNN、Fast RCNN之后,目标检测方向代表人物Ross Girshick团队在2015年的有一力作。简单网络目标检测速度达到17fps,在PSCAL VOC上的准确率为59.9%;复杂网络达到5fps,准确率78.8%。

Faster RCNN其实可以分为4个主要内容:

(1)Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
(2)Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于foreground或者background,再利用bounding box regression修正anchors获得精确的proposals。
(3)Roi Pooling。该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。
(4)Classification。利用proposal feature maps计算proposal的类别,同时再次bounding box regression获得检测框最终的精确位置。
Alt text

摘要

目前顶级的目标检测算法依赖于Region Propsal算法来假设目标定位,SPPNet和Fast RCNN已经减少了检测网络的运行时间,Region Proposal计算成为目前算法的瓶颈。本文的工作是引入了一个Region Proposal Network(RPN)和检测网络共享整个图像的卷积特征,使得Region Proposals操作近乎cost-free。RPN是一个全卷积网络,可以同时预测每一个位置的目标边界和目标评分。RPN采用端到端的训练来生成高质量的Region Proposals,然后采用Fast RCNN来检测。通过最近神经网络受欢迎的术语 attention机制,共享卷积特征,进一步的将RPN和Fast RCNN合并成一个单一网络,RPN组建告诉我们整个网络往哪里看。针对VGG16深度模型,本文的检测系统在PASCAL VOC 2007 、2012和MS COCO 数据集上每张图片有300个prposals的时候在GPU上运行有5fps的速度。在ILSVRC和COCO 2015的比赛中,Faster RCNN和RPN在多个任务中获得第一。

评注:从RCNN到Fast RCNN,再到本文的Faster RCNN,目标检测的四个基本步骤(候选区域的生成、特征提取、分类、位置精细调整)被统一到了一个深度网络框架之内。没有重复计算,完全在GPU中完成,大大提高了运行速度。
Alt text
Faster RCNN可以简单看作“Region Proposal Networks + Fast RCNN”的系统,采用RPN代替Fast RCNN的Selective Search方法。本文着重解决了此系统的三个问题:
(1).如何设计RPN
(2).如何训练RPN
(3).如何让RPN和Fast RCNN网络共享权值提取网络

1.引言

区域推荐方法(比如[4])和基于区域的卷及神经网络(RCNNs)[5]的成功推动了物体检测水平的进步。尽管RCNNs刚开发出来时[5]十分费时,经过[1][2]的跨推荐区域的共享卷积的改进,已经大幅消减了开销。近期大作Fast R-CNN[2],如果不考虑区域推荐的耗时,使用超深度网络[3]已经达到几乎实时的处理速度。但推荐显然是最先进检测系统的瓶颈。
区域推荐算法主要依赖简单的特征和经济的推理机制。最受欢迎的方法——选择性搜索[4]是基于低层次的人工特征贪婪地进行超级像素合并。而跟有效的检测网络[2]相比,选择性搜索的就慢了一个数量级,CPU上每张图片耗时2秒。EdgeBoxes[6]当前做到了速度和推荐质量的最佳平衡。然而,在整个检测网络中,区域推荐这一步仍然是主要耗时阶段。
你也许会注意到快速的基于推荐的CNNs充分利用了GPU,而区域推荐算法都是CPU中实现的。所以进行这个时间比较是不公平的。如果想加速它,用GPU实现就好了呀。这也许是个有效的工程化解决方案,但重新实现仍然会忽略下游的检测网络,因而也失去了共享计算的好机会。
本文将向您展示一个算法上的改变:使用深度卷积神经网络计算推荐区域,将引出一个优雅而高效的解决方案,在给定检测网络完成的计算的基础上,让区域的计算近乎为0。鉴于此,我们向大家隆重介绍这个新型的区域推荐网络(Region Proposal Networks,RPNs),它和当今世界最棒的检测网络[1][2]共享卷积层。通过在测试阶段共享卷积,让计算推荐区域的边际成本变得很低(比如每张图片10ms)。
我们观察到像Fast R-CNN这样的基于区域的检测器锁使用的卷积特征图也可以用来生成推荐区域。在这些卷积层的特征之上,我们通过添加一些额外的卷积网络引入一个RPN,可以和回归约束框、物体打分相并列。RPN是一种完全卷积网络(FCN)[7],可以为特定任务进行端到端的训练来产生检测推荐。
Alt text
RPNs被设计用来高效地预测各种尺度和宽高比的区域推荐。对称之前的[8][9][1][2],他们均使用图像金字塔(图1,a)或特征的金字塔(图1,b),我们则使用“锚点”盒(“anchor” boxes)作为不同尺度和宽高比的参照物。我们的模式可以看做是一个回归参照物的金字塔(图1,c),这避免了穷举各种尺度和宽高比的图像或过滤器。这个模型在单一尺度图像的训练和测试时表现优异,因而运行速度大为受益。
为了统一RPNs和Fast R-CNN[2]物体检测网络,我们提出一种介于区域推荐任务调优和之后的物体检测调优之间的训练方法,同时还能保证固定的推荐。这个方法可以很快收敛,并产生一个统一的网络,该网络在两个任务上共享卷积特征。
我们在PASCAL VOC检测benchmarks[11]上全面评估了我们的方法,RPNs结合Fast R-CNNs可以比选择性搜索结合Fast R-CNN有更高的准确度。于此同时我们的方法摒弃了选择性搜索在测试阶段几乎所有的计算负担,有效推荐的运行时间只有区区的10毫秒。使用十分耗时的超深度模型[3],我们的检测方法仍然可以在GPU上达到5fps的速度,这使得物体检测系统在速度和精度上都变得更加使用。我们也报告了在MS COCO数据集[12]上的结果,探究了PASCAL VOS上使用COCO数据集带来的提升。代码现在开放在 https://github.com/shaoqingren/faster_rcnn (in MATLAB)和https://github.com/rbgirshick/py-faster-rcnn (in Python)。
本文的一个早期版本发布在[10]上。从那时起,RPN和Faster R-CNN的框架就已经被采用,并应用到其他的方法中,比如3D物体检测[13],基于组件的检测[14],实力分割[[13]和图像字幕[16]。我们的快速而有效的物体检测系统已经构建在想Pinterests[17]这样的商业系统中,提升了用户交互。
在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多项分赛长的第一名[18],包括ImageNet 检测,ImageNet定位,COCO检测和COCO分割。RPNs从数据中完全学会了推荐区域,而且使用更深或更有表达力的特征(比如101层的Resnet[18])效果会更好。Faster R-CNN和RPN也用于多个其他领先名词的团队所使用。这些结果都说明我们的方法不仅实用省时,而且有效精准。

2.相关工作

物体推荐。有大量的推荐方法。有一些综述和这些方法的比较可见于[19], [20], [21]。广泛使用的方法很多基于grouping super-pixels (比如,Selective Search [4], CPMC [22], MCG [23]),还有一些基于滑动窗口(e.g., 比如窗口的物体属性objectness in windows[24], EdgeBoxes [6])。物体推荐方法也经常独立于它的检测器而被很多外部的模块使用 (比如, Selective Search [4] object detectors, RCNN [5], 和Fast R-CNN [2])。
用于物体检测的深度网络。R-CNN方法[5]端到端地训练CNNs,用于将推荐区域分类成物体类别或背景。R-CNN主要扮演了分类器的角色,它并不预测物体的边框(除了用于约束框回归的净化模块)。他的精度依赖于区域推荐模块的性能(见[20]中的比较)。多篇论文推荐是用深度网络预测物体约束框 [25], [9], [26], [27]。OverFeat方法中,一个全连接网络用于训练预测定位任务的单一物体的框坐标。为了检测多个特定类的物体又将全连接层转变成卷积层。MultiBox方法[26][27]也使用网络产生推荐,它的最后一个全连接层可以同时预测多个未知类的框,推广了OverFeat的“单框”风格。这些未知类方框也被R-CNN[5]所使用。MuiltiBox推荐网络应用于单张图片的一个裁切,或者一个大型图片的多个裁切(比如224×224),和我们的全卷积模式完全不同。MultiBox并不在推荐和检测网络之间共享特征。后面结合我们的方法,我们将深入讨论OverFeat和MultiBox。和我们的工作同时进行的DeepMask方法[28]也被开发出来用于语义推荐。
卷积计算的共享 [9], [1], [29],[7], [2],已经越来越受关注。OverFeat[9]中针对分类、定位、检测时会只从一个图像金字塔计算卷积特征。尺寸自适应的SPP[1]也是建立在共享卷积特征图智商的,在基于区域的物体检测[1][30]和语义分割[29]上很有效。Fast R-CNN[2]使得端到端的检测器训练全部建立在共享卷积特征之上,表现出了有引人注目的精度和速度。

3.Faster RCNN

我们的物体检测系统,成为Faster R-CNN有两个模块组成。第一个模块是深度卷积网络用于生成推荐区域,第二个模块是Fast R-CNN检测器[2],使用推荐的区域。整个系统是一个单一的统一的网络(图2)。使用近期流行的属于“注意力”[31]机制,RPN模块告知Fast R-CNN看向哪里。3.1节我们介绍网络的设计和特性。3.2节,我们开发算法用于训练模块和特征共享。
Alt text

3.1 区域推荐网络

特征推荐网络接收任意尺寸的图像输入,输出一组矩形框代表物体推荐区域,每个区域都会有一个物体性的打分。我们使用完全卷积网络(FCN)[7]构建这个过程,本节将详细表述它。由于我们的终极目标是共享Fast R-CNN和物体检测网络[2]之间的计算力,我们假定两个网络可以共享一套卷积层。在实验中,我们研究了Zeiler和Fergus模型32,他们就共享了5个卷积层,还研究了Simonyan 和Zisserman模型[3] (VGG-16),他们共享了13个卷积层。
为了产生区域推荐,我们用一个小网络在最后一个卷积层的卷积特征图上滑动。每个滑动窗口都映射到一个更加低维度的特征(对ZF使用256,对VGG使用512,后面跟一个ReLU[33])。这个特征再喂给两个并列的全连接层,一个框回归层(reg)和一个框分类层(cls)。本文中,我们使用n=3,一个在大图片(对于ZF和VGG来说,分别是171和228像素)十分有效的感受野大小。这个迷你网络在单一位置的示意如图3(左)。注意,由于迷你网络以滑动窗口的方式进行操作,全连接层是在全部空间位置共享的。这个架构很自然就就实现成一个nxn的卷积网络跟两个1×1的卷积网络层(分别是reg和cls)。
Alt text
3.1.1 锚点
在每个滑窗位置,我们同时预测多个区域推荐,每个位置的最大滑窗推荐数量定位为k。这样reg层就有4k的输出编码k个框的坐标,cls就有2k的预测对象还是非对象的概率的打分。k个推荐是针对k个参考框进行参数化的,这个参考框我们称之为锚点。一个锚点就是正在关注的滑窗的中心,并和缩放比例、宽高比想关联(图3左)(译者注:就是滑窗中心坐标、缩放比例、宽高比形成的三元组决定一个锚点)。默认我们使用3个缩放尺度和3个宽高比,在每个滑动位置产生k=9个锚点。对于一个WxH(通常是2400)大小的卷积特征图,总共有WHk个锚点。在feature map上的每个特征点预测多个region proposals。具体作法是:把每个特征点映射回映射回原图的感受野的中心点当成一个基准点,然后围绕这个基准点选取k个不同scale、aspect ratio的anchor。论文中3个scale(三种面积\left\{ 128^2, 256^2, 521^2 \right\}),3个aspect ratio( {1:1,1:2,2:1} )
平移不变性锚点
Alt text
我们方法有一个重要特性就是平移不变性。无论是锚点还是相对锚点计算推荐的函数都有这个特性。如果在一涨图片上移动一个物体,推荐也应该平移并且相同的函数应该能够在新的位置也计算出推荐来。我们的方法可以保证这种平移不变性。作为对比,MultiBox方法[27]使用k-means产生了800个锚点,却不能保持平移不变性。因此MultiBox不能保证在物体平移后产生同样的推荐。
平移不变性可以缩减模型的大小。MultiBox有(4+1)x 800维的全链接输出层,而我们的方法只有(4+2)x9的卷积输出层,锚点数是k=9。结果,我们的输出层有2.8 x 10^4个参数(对于VGG-16而言是512 x (4 + 2)x 9),比MultiBox的输出层的6.1×10^6个参数(对GoogleNet[34]为1536x(4 + 1)x800)少了两个数量级。如果考虑特征映射层,我们的推荐层也还是少一个数量级。我们预期这个方法可以在PASCAL VOC这样的小数据集上有更小的过拟合风险。
多尺度锚点作为回归参照物
我们的锚点设计是解决多尺度问题的一种新颖形式。如图1所示,有两种流行的多尺度预测形式。第一种是基于图像/特征金字塔,也就是DPM[8]和基于CNN的方法[9][1][2]。图像被缩放到各种尺度,特征图(HOG[8]或深度卷积特征[9][1][2])也在每个尺度进行计算,参见图1(a)。这种方式通常很有用,但是很耗时。第二种方式是在特征图的多个尺度上使用滑窗。例如,在DPM[8]中,不同缩放比例的模型分开训练,使用了不同的过滤器尺寸(诸如5×7,7×5)。如果这种方式解决多尺度问题,可以看作是过滤器的金字塔,图1(b)。第二种方式通常和第一种方式联合使用[8]。作为比较,我们的基于锚点的方法是建立在锚点金字塔上的,是否高效。我们的方法使用不同尺度和不同宽高比的锚点作为参考分类和回归约束框。他之和单一尺度的图像和特征图有关,并且使用单一尺寸的过滤器,这些过滤器在特征图上进行滑动。我们通过实验显示了我们这个方法解决多尺度和多尺寸问题的效果(表8)。由于基于锚点的多尺度设计,我们可以和Fast R-CNN检测器[2]一样,只在单一尺度的图像上计算卷积特征。多尺度锚点的设计是不用额外计算开销共享特征解决多尺度问题的关键。
3.1.2 损失函数
为了训练RPNs,我们设计了针对每个锚点的二分类标签(是否是一个物体)。我们给两类锚点标记位正例:(i)和标注框最大重合的锚点 (ii)和任何标注框IoU重叠度超过0.7的。对于一个真实标注可能会产生多个正例锚点。通常第二类情况就足够确定正例了,但我们仍然采用第一类的原因是一些特别极端的案例里面没有正例。对于与标注框重叠度低于0.3的都标注为负例。既正且负的锚点对训练没有帮助。结合这些定义,我们参照Fast R-CNN中的多任务损失函数的定义我们的损失函数是:

这里,i是一个mini-batch中anchor的索引, $p_i$是anchor i 为一个目标的预测概率,如果anchor为正,GT标签$p^_i$ 就是1,如果anchor为负,$p_i^$就是0。ti是一个向量,表示预测的包围盒的4个参数化坐标,ti 是与正anchor对应的GT包围盒的坐标向量。分类损失$L_{cls}$是两个类别(目标vs.非目标)的对数损失。对于回归损失,采用$L_{reg}(t_i,t^_u)=R(t_i-t^_i)$ 其中R是[2]中定义的鲁棒的损失函数(smooth L1)。
$P^
_iL_{reg}$这一项意味着只有正anchor($P^_i =1$ )才有回归损失,其他情况就没有($P^_i=0$ )。cls层和reg层的输出分别由{$p_i$}和{$t_i$}组成,这两项分别由$N_{cls}$和$N_{reg}$以及一个平衡权重λ归一化(早期实现及公开的代码中,λ=10,cls项的归一化值为mini-batch的大小,即$N_{cls}=256$,reg项的归一化值为anchor位置的数量,即$N_{reg}$~2,400,这样cls和reg项差不多是等权重的。
对于回归,我们学习[5]采用4个坐标:
$t_x = (x-x_a)/w_a , ty = (y-y_a)/h_a$
$t_w = log(w/w_a) , t_h = log(h/h_a)$
$t_x^ = (x^- x_a)/w_a, t^_y=(y^-y_a)/h_a$
$t^_w=log(w^/w_a), t^_h = log(h^/h_a)$
x,y,w,h指的是包围盒中心的(x, y)坐标、宽、高。变量x,$x_a$,x*分别指预测的包围盒、anchor的包围盒、GT的包围盒(对y,w,h也是一样)的x坐标。可以理解为从anchor包围盒到附近的GT包围盒的包围盒回归。
无论如何,我们用了一种与之前的基于特征映射的方法[1,2]不同的方法实现了包围盒算法。在[1, 2]中,包围盒回归在从任意大小的区域中pooling到的特征上执行,回归权重是所有不同大小的区域共享的。在我们的方法中,用于回归的特征在特征映射中具有相同的空间大小(3x3)。考虑到各种不同的大小,需要学习一系列k个包围盒回归量。每一个回归量对应于一个尺度和长宽比,k个回归量之间不共享权重。因此,即使特征具有固定的尺寸/尺度,预测各种尺寸的包围盒仍然是可能的。
训练RPN
RPN很自然地实现为全卷积网络,通过反向传播和随机梯度下降(SGD)[35]端到端训练。我们遵循[2]中的“image-centric”采样策略训练这个网络。每个mini-batch由包含了许多正负样本的单个图像组成。我们可以优化所有anchor的损失函数,但是这会偏向于负样本,因为它们是主要的。因此,我们随机地在一个图像中采样256个anchor,计算mini-batch的损失函数,其中采样的正负anchor的比例是1:1。如果一个图像中的正样本数小于128,我们就用负样本填补这个mini-batch。
我们通过从零均值标准差为0.01的高斯分布中获取的权重来随机初始化所有新层(最后一个卷积层其后的层),所有其他层(即共享的卷积层)是通过对ImageNet分类[36]预训练的模型来初始化的,这也是标准惯例[5]。我们调整ZF网络的所有层,以及conv3_1,并为VGG网络做准备,以节约内存[2]。我们在PASCAL数据集上对于60k个mini-batch用的学习率为0.001,对于下一20k个mini-batch用的学习率是0.0001。动量是0.9,权重衰减为0.0005[37]。我们的实现使用了Caffe[38]。

3.2RPN和Fast RCNN共享特征

迄今为止,我们已经描述了如何来为生成区域推荐训练网络,而不考虑基于区域的目标检测 CNN如何利用这些推荐框。对于检测网络,我们采用Fast R-CNN,接下来我们将介绍RPN和Fast RCNN共享卷积层的统一网络。RPN和Fast R-CNN都是独立训练的,要用不同方式修改它们的卷积层。因此我们需要开发一种允许两个网络间共享卷积层的技术,而不是分别学习两个网络。注意到这不是仅仅定义一个包含了RPN和Fast R-CNN的单独网络,然后用反向传播联合优化它那么简单。原因是Fast R-CNN训练依赖于固定的目标建议框,而且并不清楚当同时改变建议机制时,学习Fast R-CNN会不会收敛。虽然这种联合优化在未来工作中是个有意思的问题,我们开发了一种实用的3步训练算法,通过交替优化来学习共享的特征。
(1)交替训练(Alternating training)。 在这个解决方案中,我们首先训练RPN,并使用这些推荐结果来训练Fast R-CNN。 由Fast R-CNN调整的网络然后被用于初始化RPN,并且这个过程被重复。 这是本文所有实验中采用的解决方案。
(2)近似联合训练(Approximate joint training),在这个解决方案中,RPN和Fast RCNN网络在训练如图二的期间被合并。在每次SGD迭代过程中,前向传播生成的区域推荐就像固定的一样被对待,然后在训练Fast RCNN检测器的时候预计算推荐框。反向传播向往常一样对待,这里共享卷积层的反向传播信号来自PRN Loss和Fast RCNN Loss的被联合考虑。这个解决方案是容易实现的。但是这个方案忽略了倒数w.r.t这个推荐盒的左边也是网络的响应,因此是近似的。在我们的实验中,我们发现这个求解器产生了相当的结果,和交替训练相比,我们减少了大约20~50%的训练时间。这个解决方案可以在发布的Python代码中看到。
(3)非近似联合训练(Non-approximate joint training),如上所述,RPN预测的边界框也是函数的输入。Fast RCNN的 ROI Pooling Layer接收卷积特征和预测的边界框作为输入,所以咋i 理论上有效的反向传播应该包括梯度w.r.t的盒坐标。这些梯度在上面的近似联合训练中被忽略。在非近似联合训练解决方案汇总,我们需要一个ROI Pooling Layer不同于w.r.t 盒坐标。这是个非常好的问题,可以通过ROI Wraping Layer的发展给出,这超出了本文讨论的范围。
四步交替训练(4-Step Alternating Training),在本文中,我们采用了实用的四步训练算法来通过交替优化学习共享特征。在第一步中,我们按照3.1.3的描述训练RPN。这个网络用ImgeNet的预训练模型进行初始化,然后端到端的完成Region Proposal任务的微调。在第二步,我们采用Fast RCNN通过采用第一步RPN生成的Proposals单独训练了一个检测网络。这个检测网络也是通过ImageNet预训练模型进行初始化的。此时这个两个网络不共享卷积层。在第三部中,我们使用检测网络来初始化RPN的训练,但是我们固定共享的卷积层,只微调RPN单独的层。然后,这两个网络共享了卷积层。最后,保持卷积层共享的固定,我们微调了Fast RCNN的单独的层。就这样,两个网络共享了相同的卷积层并形成统一的网络。类似的交替训练可以更好的运行在更多的迭代次数上,但是观察到的提升可以忽略。
Alt text

3.3实现细节

我们训练、测试区域建议和目标检测网络都是在单一尺度的图像上[1, 2]。我们缩放图像,让它们的短边s=600像素[2]。多尺度特征提取可能提高准确率但是不利于速度与准确率之间的权衡[2]。我们也注意到ZF和VGG网络,对缩放后的图像在最后一个卷积层的总步长为16像素,这样相当于一个典型的PASCAL图像(~500x375)上大约10个像素(600/16=375/10)。即使是这样大的步长也取得了好结果,尽管若步长小点准确率可能得到进一步提高。
对于anchor,我们用3个简单的尺度,包围盒面积为128x128,256x256,512x512,和3个简单的长宽比,1:1,1:2,2:1。注意到,在预测大建议框时,我们的算法考虑了使用大于基本感受野的anchor包围盒。这些预测不是不可能——只要看得见目标的中间部分,还是能大致推断出这个目标的范围。通过这个设计,我们的解决方案不需要多尺度特征或者多尺度滑动窗口来预测大的区域,节省了相当多的运行时间。图1(右)显示了我们的算法处理多种尺度和长宽比的能力。下表是用ZF网络对每个anchor学到的平均建议框大小(s=600)。
Alt text
跨越图像边界的anchor包围盒要小心处理。在训练中,我们忽略所有跨越图像边界的anchor,这样它们不会对损失有影响。对于一个典型的1000x600的图像,差不多总共有20k(~60x40x9)anchor。忽略了跨越边界的anchor以后,每个图像只剩下6k个anchor需要训练了。如果跨越边界的异常值在训练时不忽略,就会带来又大又困难的修正误差项,训练也不会收敛。在测试时,我们还是应用全卷积的RPN到整个图像中,这可能生成跨越边界的建议框,我们将其裁剪到图像边缘位置。
有些RPN建议框和其他建议框大量重叠,为了减少冗余,我们基于建议区域的cls得分,对其采用非极大值抑制(non-maximum suppression, NMS)。我们固定对NMS的IoU阈值为0.7,这样每个图像只剩2k个建议区域。正如下面展示的,NMS不会影响最终的检测准确率,但是大幅地减少了建议框的数量。NMS之后,我们用建议区域中的top-N个来检测。在下文中,我们用2k个RPN建议框训练Fast R-CNN,但是在测试时会对不同数量的建议框进行评价。

4.实验

各种对比实验,此处略过
Alt text
Alt text
Alt text
Alt text
Alt text
Alt text
Alt text
Alt text
Alt text

5.总结

本文提出了能够高效、准确生成区域推荐(Region Proposal)的RPNs,通过和下流检测网络共享卷积特征,Region Proposal 网络几乎没有计算消耗。本文的方法是能够使统一的基于深度学习的目标检测算法以接近实时的帧速运行在目标检测系统上。学习到的RPN能够提升区域推荐的质量从而提高整体目标检测的准确度。

本文标题:Faster RCNN论文阅读笔记

文章作者:Y.G Ren

发布时间:2018年01月03日 - 17:01

最后更新:2018年01月05日 - 21:01

原始链接:https://ygren.github.io/2018/01/03/Faster-RCNN论文阅读笔记/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。