• 548.42 KB
  • 2022-04-22 13:43:18 发布

基于卷积神经网络的路面病害检测技术.pdf

  • 9页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'中国科技论文在线http://www.paper.edu.cn基于卷积神经网络的路面病害检测技术**欧阳林澍,徐国胜,郭燕慧(北京邮电大学网络空间安全学院,北京100876)5摘要:快速、准确的裂缝自动识别对于保障行车安全具有重要的意义。现有的裂缝识别技术大多基于人工提取局部图像特征或边缘检测等方法,但是人工特征覆盖面有限,无法应对具有大量噪声的复杂路面图像。近年来,卷积神经网络由于其自动提取图像特征表示的能力受到了广泛关注,并有工作尝试将其应用于裂缝检测问题。但是已有的工作仍然只提取图片局部区域的特征进行分类,无法利用裂缝狭长连续的整体空间结构特性。本文设计实现了具有10较大感知域的神经网络,一方面从大量数据中自动学习裂缝的局部特征,可以良好地应对复杂情况,另一方面较大的感知域有效利用了局部区域周边的上下文信息。实验结果表明,本方法受图像噪声干扰较小,识别准确率优于传统方法,并且识别结果具有良好的结构完整性,已接近人工识别的水平。关键词:裂缝识别;卷积神经网络;端到端15中图分类号:TP391.4RoadDiseasesDetectionBasedOnConvolutionalNeuralNetworkOUYANGLinshu,XUGuosheng,GUOYanhui20(SchoolofCyberspaceSecurity,BeingUniversityofPostandTeleommunication,Beijing100876)Abstract:Fast,accurateautomaticcrackdetectioniscriticalfortransportationsafety.Currentresearchmainlyfocusedonhumandesignedfeaturesoredgedetection.However,thesefeaturescan"tcoverallthecaseinthecomplicatedroadsituation.Recentyears,convolutionalneuralnetworkisgettingmore25attentionduetoitsabilitytoextractfeaturesautomaticallyfromimagedatas,andthereareworksonapplyingtheCNNtodetectroadcrack.ButtheseworksstillapplyCNNtoclassifysmallpatchsoftheimageandlosethestructureinformationofthecrack.Wedesignanendtoendcontextawareconvolutionalnetworkarchitecturethathaslargereceptivefield,toleveragethecontextinformationinthelargeareatohelpclassifythecentralarea.Experimentresultsshowedthatourarchitectureisrobust30toimagenoises,andismoreaccuratethantraditionalmethods.Mostimportantly,thepredictedcrackismorestructurepreserved.Keywords:crackdetection;convolutionalneuralnetwork;endtoend350引言随着国民经济的发展,我国汽车保有量不断增长,公路也因此承担了更大的负载,破裂现象不断增长。此时,及时、准确地检测路面的裂缝是进行快速维修以保障行车安全的前提。而由于路面表面经常有灰尘、小石子等杂物,图像中噪声比较大,传统的自动识别方法易受噪声干扰,识别准确率较低,这也导致目前路面裂缝检测仍然以效率低下的人工检测为主。40另一方面,当前自动驾驶技术正在飞速发展,逐渐接近实用,而裂缝的快速自动识别是自动驾驶过程中对裂缝进行减速避让等操作的前提,这对于自动驾驶的安全性具有重要意义。[1][2]近年来,随着计算能力的飞速提升和数据量的增加,基于神经网络的图像分类技术作者简介:欧阳林澍(1992-),男,硕士研究生,主要研究方向:通信联系人:徐国胜(1978-),男,讲师,主要研究方向:深度学习.E-mail:guoshengxu@bupt.edu.cn-1- 中国科技论文在线http://www.paper.edu.cn[3][4]和图像分割技术取得了突破性的进步,这促使我们尝试将图像识别技术应用于路面裂缝检测领域,并取得了较好的效果。451相关工作[5]根据,当前路面裂缝识别算法主要分为五个大类:1、基于显著性检测的方法。2、基于纹理分析的方法。3、基于小波变换的方法。4、基于最小路径选择的方法。5、基于机器学习的方法。在显著性检测方法中,裂缝的识别主要利用裂缝区域与周边区域的显著差异,比如颜色50的显著差异。这种方法易于理解,但易受噪声影响,识别出来的裂缝非常粗糙。纹理分析方法中,考虑了裂缝处与正常路面处具有不同的纹理特征,因此使用纹理检测算子来从图片中检测出裂缝区域。小波变换方法将图像信息通过小波变化映射到复系数空间,以突出裂缝区域与正常区域的区别,从而达到识别裂缝的目的。最小路径选择方法是一种基于图片几何拓扑结构的方法,它可以从图片中找到简单的非闭合曲线,这符合一般的裂缝的形态。55近年来随着图片数据量的增加,统计机器学习方法正在逐渐成为裂缝检测最重要的一类方法。这类方法一般由人工提取裂缝具有的特征,然后用大量图片数据训练用于分类的模型,达到识别裂缝的目的。注意到,上述1-4四个大类的方法相当于从不同角度提取了路面图像的特征,但是它们单独使用时只能在某些噪声较小的特殊情形下起作用,识别效果有限,并且这些特征的提取较为主观,缺乏系统的识别效果评价指标。而统计学习方法将这些单个特60征系统地组合起来,构建复杂的分类器,可以从不同特征角度全面地识别裂缝,具有更好的识别效果,而且它以大量图片数据为基础,可以客观的评价各个特征的作用和效果。由此可见基于统计学习方法的裂缝识别是包含了前四类识别方法的更广泛的概念。但是当前的基于统计学习的方法本质上还是一种局部性的方法,即只对图片中的单个小区域提取特征并分类,这样一来人工提取特征只能提取非常显著的一些特征,无法覆盖一些复杂的路面情况。65针对人工提取特征的缺陷,近年来,卷积神经网络方法取得了进展。卷积神经网络具有自动提取特征的效果,可以从大量图片数据中学习到高阶的图形特征表示,从而更好地应对复杂的裂缝形态和路面情况。文献[6]的工作就使用了卷积神经网络来识别路面裂缝,取得了比人工提取特征更好的效果,不过该工作仍然将原始路面图片切分为小块,对每个小块用卷积神经网络来做是否含有裂缝的二分类,裂缝的空间结构信息仍然没有被充分利用。由于70裂缝本身一般狭长连续,会贯穿多个小块,将要分类的小块周边各个小块的形态纳入考虑,会获得更多的上下文信息,从而帮助识别。基于这个考虑,本方法将输入图片视为一个整体,利用较大区域的图像信息帮助对区域中心的小块进行分类,从而有效利用了空间结构信息,取得了更好的识别效果。2全卷积神经网络75文献[6]的工作使用卷积神经网络来识别路面裂缝,该方法将路面照片切分为小块,然后将这些小块标以是/否含有裂缝的类别,送入卷积神经网络作二分类(图1),依次遍历整张图片,用相同的神经网络对图片的每个小块给出分类,从而达到在图片中识别出裂缝位置的目的。这样做的好处是模型参数少,所需计算量小,并且可以不加修改地直接使用普通的用于图片分类的卷积神经网络结构。但是可以看出,该方法中神经网络的视野只看小区域内的-2- 中国科技论文在线http://www.paper.edu.cn80图像,没有考虑裂缝朝它上方和下方延伸的周边信息。这样一来它的分类效果十分有限,比如它很难区别该区域内的黑色线条是一个裂缝的一段,还是只是一个孤立的黑斑。而如图2所示的本方法,神经网络的视野较大,即输出层的神经元与较大区域的图像输入相连,通过观察一大块区域,来帮助判断该区域中心的小区域是否为裂缝。可以看出,该方法较好地利用了裂缝的空间结构信息,可以应对更复杂的裂缝形态,并且应对噪声的能力85更强。不过,神经网络的视野变大意味着参数数量的增加与计算量的巨大提升。为此,我们将遍历图片的操作转化为卷积操作,从而省去大量重复的计算,使得本神经网络结构的实际训练成为可能。图1传统方法的视野图2本方法的视野90Fig.1smallreceptivefieldFig.2largereceptivefield2.1上下文感知网络结构本方法提出的神经网络总体结构如图3所示,由若干卷积层和五个pooling层交替构成,其中卷积层的kernel=3,stride=1,padding=1,激活函数为Relu,pooling层的stride=2。这样每个卷积层的输入和输出尺寸相同,而pooling层的输出的尺寸是输入的一半,经过五层95pooling层后,原始的640x960的输入尺寸最终减少到1/2^5=1/32,即20x30,最后一层神经元的输出分别经过logistic函数,将输出挤压到(0,1)区间中,作为神经网络的输出。这个输出的20x30的矩阵中的每个元素对应着输入的路面图像中的一个32x32的小区域,代表这个区域是否为裂缝,越接近1,表明这个区域是裂缝的可能性越大。由于人工标注也是针对每个32x32的小区域是否为裂缝的标注,与神经网络的输出一一对应,因此可以高效进行图像100-标注的端到端训练。注意到,由于有多个卷积层的存在,这些顶层的神经元与输入图像中较大的区域间接连接,这样,每个顶层的神经元都在利用它对应的32x32的小区域周边的上下文环境信息来判断这个小区域是否为裂缝,从而有效利用了图像的整体特征。-3- 中国科技论文在线http://www.paper.edu.cn图3全卷积神经网络结构图105Fig.3fullyconvolutionalneuralnetwork另外,网络的具体结构有如下几点考虑:MaxpoolingorAvgpoolingPooling层是对输入的每个小范围,使用一个聚合函数如max,mean,来将这个小110范围内的输入聚合为一个值输出。一般来说,这个小范围是一个2x2的区域。顾名思义,Maxpooling是从这个区域里找出最大值输出,avgpooling是将这个区域里的值取平均输出。Pooling层的作用是使网络具有更强的位移不变性,即对图像中物品的微小位移产生相同的输出。比如输入图像中的物品产生了少许偏移,会在maxpooling区域的另外的位置产生最大值,经过maxpooling后,它的输入没有变化。115这种位移不变性对于网络在分类任务中取得较好效果非常关键,因为对于分类任务来说,物品的位置无关紧要。但是在本问题中,裂缝的位置信息也很关键,因此我们需要限制这个位移不变性。Avgpooling考虑了小区域中的所有信息,相比于maxpooling,带来的位移不变性更小,更适合本问题。后续实验也证明了avgpooling比maxpooling的识别效果要更好。120卷积核的大小卷积核的大小决定了每个上层的神经元能够感知到多大范围的图像,卷积核越大,上层的神经元能感知到的图像范围越大。我们希望将顶层神经元的视野控制在一个适中的大小,如果视野过小,在对视野中心的小区域进行分类时利用的周边环境信息较少,125如果视野过大,来自周边区域的噪声可能会占较大比重,也会影响识别准确率。另外,卷积核的大小直接决定了模型的参数数量,较小的卷积核参数较少,不易过拟合,较大的卷积核参数过多,可能会导致过拟合。用1x1卷积代替全连接层130普通的图像分类神经网络一般来说都是在若干卷积层后加入全连接层,对整个图像输出一个类别。在本问题中,相当于对图像的每个区域输出一个类别,一共需要输出-4- 中国科技论文在线http://www.paper.edu.cn20x32个位置的类别。因此,我们将全连接层转化为1x1的卷积层。注意到这个1x1的卷积层的输出和输出的位置是一一对应的,参数也只用于这单个位置的分类,因此相当于每个位置上加入了一个全连接层。这样做的好处有两点:实现了参数共享,所有位置135的裂缝判别使用相同的参数,减少了参数数量,降低了计算需求,减少了过拟合的风险;另一方面,转换成卷积操作使很多重复的计算得以共享,大大加速了网络的训练速度。BatchNormalizationBatchNormalization是将每层的输出都进行一个正规化,较好地解决了多层网络中140梯度溢出的问题和梯度消失的问题,大大降低了模型优化的难度,并且使得模型可以以较大的学习率进行训练,大大加快了模型训练速度。另外,在实验中我们也发现,BatchNormalization提高了少许识别率。2.2网络训练目标函数145普通的二分类神经网络的目标函数一般为交叉熵,但由于本模型的输出和目标都为矩阵,需要同时衡量两个矩阵中每个元素之间的距离,因此需要特殊的目标函数。一个容易想到的方式为对矩阵每个元素位置使用交叉熵,然后对整个矩阵取平均的方式。但是这种指标实践中是有问题的。注意到图片中裂缝区域是相对较少的,而且各个图片中裂缝区域数量不同,因此该值会随着裂缝区域数量的变化而有较大变化,所以我们无法用该值来直观地判断150在某张图片上的识别准确率水平。针对这些问题,我们选用一个衡量向量相似度的指标作为目标函数进行训练。我们采用[7]如下常见的衡量向量相似度的公式:2XYQS=X+Y作为我们的目标函数。这里的X代表神经网络的输出矩阵,Y代表人工标注的矩阵,155它们的大小都是20x30。当X与Y完全相等时,QS=1,否则QS<1,且X与Y重合的部分越大,QS值越大。注意到这个值得大小只与图片中识别准确的裂缝的占比有关,而与裂缝区域的数量无关,因此对不同图片都有一个共同的评价标准,从而避免了使用交叉熵带来的问题。由于实践中X和Y可能全部为0,为了防止除0错误,我们给此公式加入平滑项,得到:21XY+160QS=XY+1+由于我们希望QS越大越好,因此我们使用-QS作为模型的损失函数,并用梯度下降法来优化此损失函数。优化由于网络结构复杂、层数较多,优化存在一定的困难,在实验中,我们主要对比了两种165最常用的优化算法:随机梯度下降与自适应学习率的Adam算法,最终发现Adam算法针对此模型优化效果更好。各个优化算法效果的比较详见第3章实验结果与分析。-5- 中国科技论文在线http://www.paper.edu.cn3实验结果与分析为了能够充分可靠的反映算法的性能,我们收集了约4万张高清路面照片用于训练和测170试,并进行了精细的人工标注。这些照片是单通道灰度图,全部经过取局部均值的方法缩小到640x960的大小。这4万张照片被划分成两部分,其中一部分有3万张,用于训练,剩余的1万张用于测试。实验中使用的模型全部基于Python和Keras实现,其中Keras是基于theano的神经网络运算库。175本算法中使用的神经网络具有较多的参数,运算量较大,因此我们使用GPU来加速训练。本实验使用一台带有TitanXPascalGPU的服务器完成,该GPU的单精度浮点运算能力约11TFlops。图4Adam与BN图5SGD与BN180Fig.4AdamwithBNFig.5SGDwithBNBatchNormalization本节中我们通过实验说明了BatchNormalization(以下简称BN)的重要性。首先,图4中我们对比了Adam算法在有BN和无BN时的损失曲线,蓝线为带有BN185时的损失曲线,红线为不带BN时的损失曲线,两者的学习率都为1e-3。横轴是训练的轮数,纵轴为-QS,也即损失函数的值。虚线为训练集上的损失,实线为验证集上的损失。可以看到,在有BN的情况下,损失下降的更快,并且最后收敛到的损失值比不带BN时略小。在图5中我们比较了SGD算法在有BN和无BN时的区别。其中绿线是带有BN时的SGD算法,黑线为不带BN时的SGD算法,前者的学习率被设为1e-4,后者为1e-10。可190以看出,即使已经使用相当小的学习率,不带BN的SGD也无法收敛。而带有BN的SGD则使损失函数稳定的下降。从这两个对比,我们可以得出结论,BN在帮助优化算法优化本问题的损失函数-QS的过程中发挥了巨大的作用。因此后续实验我们默认使用了BN。优化算法195优化算法的选择会影响模型的收敛速度,有时更会影响模型最后的效果。当前,在神经网络相关研究中,随机梯度下降(SGD)与Adam是最为常用的两种优化算法。这里我们在给定BN的条件下对比了两种算法的优化效果。如图6所示,我们通过对比蓝线与绿线,可以看到Adam算法比SGD算法的优化效果要好很多。一方面,Adam算法收敛的更快,另一方面,最后收敛到的损失值也比SGD要-6- 中国科技论文在线http://www.paper.edu.cn200低很多。因此后续实验我们全部使用BN+Adam对网络进行训练。图6Adam与SGD的对比图7网络深度比较Fig.6AdamVSSGDFig.7networkdepthcomparison205网络深度本节主要对比具有不同卷积层层数的网络结构的性能。如图7所示,图中蓝线代表原始的15层神经网络的损失变化,红线为20层神经网络的损失变化。它们除了层数不同以外,其他设置如卷积核大小、学习率、优化算法等完全相同。可以看到,层数的加深对于模型的性能有显著的提升,这是由于更多的卷积层可以学习到更为复杂的高阶特征表示。210卷积核大小本节实验主要验证卷积核大小与模型性能之间的关系。我们对比图8中的蓝线和黑线,其中蓝线为原始的15层网络,卷积核大小为3,黑线对应的网络将卷积核大小改为5,其它设置不变。可以看到,大小为5的卷积核具有比大小为3的卷积核更好的识别效果,但是这个效果的提升是以接近三倍的运算量提升为代价的。215图8卷积核大小比较图9pooling层的比较Fig.8kernelsizecomparisonFig.9poolingtypecomparisonPooling层的选择本节实验对比maxpooling与avgpooling在本问题中的的性能。由图9中的红线和绿线220来进行对比,红线是20层的卷积神经网络,pooling层采用的是maxpooling,绿线的pooling层采用avgpooling,除此以外设置相同。由两者的损失曲线可以看到,avgpooling的效果要比maxpooling好很多,这与我们前边有关avgpooling有助于在本问题中帮助保持裂缝位置信息的论断一致。-7- 中国科技论文在线http://www.paper.edu.cn上述各网络的实验结果汇总如表1所示。可以看到,avgpooling+Adam+BN+大小为3225的卷积核+20层网络结构给出了最优的识别效果0.6822。另外,作为对比,我们用传统人工特征的方法在相同数据集上进行了实验。我们对每个小区域提取了如最大黑色像素块占比、最大黑色像素块长宽比等描述裂缝形态的特征,然后用随机森林进行二分类。实验结果表明,我们的基于全卷积神经网络的方法的识别效果远远超过该传统方法。表1识别效果对比230Tab.1performancecomparison编号模型设置卷积核大小网络层数相似度(-QS)1maxpooling+SGD315未收敛2maxpooling+SGD+BN315-0.59883maxpooling+Adam315-0.65004maxpooling+Adam+BN315-0.65465maxpooling+Adam+BN320-0.67726avgpooling+Adam+BN320-0.68227maxpooling+Adam+BN515-0.67838人工特征+随机森林//-0.3932图10与图11是本算法在路面照片上的识别效果图。其中绿色表示识别正确的部分,即模型预测与人工标注相符的部分。红色为模型多预测的部分,蓝色为模型未能识别出裂缝的部分。可以看到,模型整体上可以较好的表现出裂缝的主体形态,但在裂缝边缘区域有时会235有一些误差,这主要是由于神经网络的pooling层会引入少许位移不变性,导致在一些裂缝边缘的位置上仍然把它判为裂缝。图10识别效果图1图11识别效果图2Fig.10recognitiononeFig.11recognitiontwo2404结论本文给出了一个卷积神经网络加条件随机场的路面病害识别算法框架。实验中该算法取得了接近人工识别的准确率,表明该算法抗噪声能力强,可以应对较为复杂的路面状况和光照条件。该算法框架无需人工提取图片特征,直接从图片数据中自动提取特征,可以良好的利用245大量图片数据。后续随着对卷积神经网络结构的进一步改进以及对条件随机场结构的优化,本算法框架的识别效果还会取得进一步的提升。-8- 中国科技论文在线http://www.paper.edu.cn[参考文献](References)[1]Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks[J]."Advancesinneuralinformationprocessingsystems.2012.250[2]He,Kaiming,etal."Deepresiduallearningforimagerecognition[A]."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition[C].2016.[3]Long,Jonathan,EvanShelhamer,andTrevorDarrell."Fullyconvolutionalnetworksforsemanticsegmentation[A]."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition[C].2015.[4]Noh,Hyeonwoo,SeunghoonHong,andBohyungHan."Learningdeconvolutionnetworkforsemantic255segmentation[A]."ProceedingsoftheIEEEInternationalConferenceonComputerVision[C].2015.[5]Shi,Yong,etal."Automaticroadcrackdetectionusingrandomstructuredforests[J]."IEEETransactionsonIntelligentTransportationSystems17.12(2016):3434-3445.[6]Zhang,Lei,etal."Roadcrackdetectionusingdeepconvolutionalneuralnetwork[J]."ImageProcessing(ICIP),2016IEEEInternationalConferenceon.IEEE,2016.260[7]Guindon,Bert,andYingZhang."ApplicationoftheDiceCoefficienttoAccuracyAssessmentofObject-BasedImageClassification[J]."CanadianJournalofRemoteSensing43.1(2017):48-61.-9-'