• 325.45 KB
  • 2022-04-22 13:44:07 发布

基于分层技术的快速最大方差展开算法及其在过程监测中的应用.pdf

  • 9页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'中国科技论文在线http://www.paper.edu.cn基于分层技术的快速最大方差展开算法及#其在过程监测中的应用112**魏驰航,宋执环,陈荣辉5(1.浙江大学控制科学与工程学院,杭州310000;2.中原大学化学工程学院,桃园32023)摘要:最大方差展开是一种可以自主学习核的流行学习算法。它已经被证明是一种非常有效的非线性数据降维方法,并且在过程监测领域得到了成功的应用。然而,由于其对计算复杂10度和空间要求非常高,最大方差展开并不适用于大规模数据。本文提出了一种基于分层技术的快速最大方差展开算法。数据的局部特征和稀疏性保证了分层技术的有效实施。这个算法通过分层技术求取近似核来显著减低计算复杂度和空间要求,同时最小化所牺牲的准确性。本文给出了快速最大方差展开算法的数学结构,然后定量地推导了精确性、计算复杂度和空间要求。本文通过一个数学例子和连续搅拌釜式加热器过程验证了所提算法的有效性。15关键词:自动化与仪器仪表装置;过程监测;最大方差展开;快速学习;分层技术;大规模数据中图分类号:TP273HierarchicalTechniqueBasedFastMaximumVariance20UnfoldingandItsApplicationforProcessMonitoring112WEIChihang,SONGZhihuan,CHENJunghui(1.CollegeofControlScienceandEngineering,ZhejiangUniversity,Hangzhou310000;2.DepartmentofChemicalEngineering,ChungYuanChristianUniversity,Taoyuan32023)Abstract:Maximumvarianceunfolding(MVU)hasrecentlyproventobeapowerfuldimensionality25reductionmethodfornonlineardatawithnumerousmutuallycorrelatedmeasuredvariables,whichhasbeensuccessfullyusedinprocessmonitoring.However,thescalabilityofMVUisabigchallengewhenfacinglarge-scaledatabecauseofcomputationalcomplexityandstoragerequirementsforlargekernelmatrices.Inthispaper,afastlearningframeworkforMVU(FMVU)basedonhierarchicaltechniqueisproposedtolearnascalableapproximatekernelthathelpstoreducecomputational30complexityandstoragerequirementsforlarge-scaledatasets.ThehierarchicalconstructionofMVUfromthecollecteddataisachievedbythegoodlocalizationcharacteristicsofdistributionandsparsityofdata.ThemathematicalframeworkforthedevelopmentofFMVUandquantitativederivationontheaccuracy,computationalcomplexityaswellasstoragerequirementsarepresented.ThefeasibilityandefficiencyofproposedmethodisillustratedthroughanumericalcaseandCSTHprocess.35Keywords:automationandinstrumentation;processmonitoring;maximumvarianceunfolding(MVU);fastlearning;hierarchicaltechnique;large-scaledata0引言[1]近些年,厂级的过程监测吸引了越来越多的研究者的关注。分布式控制器的广泛应用[2]40使得采集大规模数据成为了可能,这也推动了基于数据的多变量统计过程监测的发展。由于厂级过程广泛存在内在的质量、能量等平衡的约束,其数据往往存在非常严重的变量冗余现象。因此基于数据的多变量统计过程监测需要首先把数据降维到低维空间,然后在低维空基金项目:高等学校博士学科点专项科研基金(20130101110138)作者简介:魏驰航(1990-),男,博士生在读,主要研究方向:过程监测、流行学习通信联系人:宋执环(1963-),博导,主要研究方向:复杂工程系统安全监测与故障诊断、工业大数据分析与建模.E-mail:songzhihuan@zju.edu.cn-1- 中国科技论文在线http://www.paper.edu.cn间中进行过程监测。在多种多样的基于数据的多变量统计过程监测算法中,主成分分析有可能是最为人熟知[3]45并得到广泛应用的一个算法。这个算法最明显的缺点是它不能处理非线性数据。因此,有[3]学者提出了核主成分分析。但是由于没有有效而统一的选取核函数的方法,核主成分分析[4][4]算法的效果得不到保证。在这种背景下,有学者提出了最大方差展开算法,并且已经被证明是一种在过程监测领域非常有效的非线性数据降维方法。它最大的特点是可以自主从建模数据中学习出来一个核,而不是像核主成分分析那样由使用者人为地指定一个核,以此来50更好地适应特定数据。然而在实际使用中,由于计算复杂度和空间要求的限制,最大方差展[5]开只适用于小规模数据。为了解决这个问题,本文提出了基于分层技术的快速最大方差展开算法。这个算法中根据数据分布和稀疏性对不同的数据点采取不同的处理方式,而不是像传统的方法平等地处理所有的数据点。具体来说,对于传统的最大方差展开算法来说:在离线建模阶段,只有一个55N*N的核矩阵被学习出来(N是建模点的数量),然后在此基础上进行数据降维;在在线监测阶段,新数据点的降维结果要经过与所有N个建模数据点间的两两计算得出。对于所提出的算法来说:首先据数据点间的欧式距离把建模数据分为P类,然后选择P个代表点;将传统的最大方差展开将分别作用于这P个代表点与P类上,最终得到(P+1)个核;最终通过所提的技术将这些核全部融合在一起来得到一个近似核。这将显著降低计算复杂度与空60间要求。1最大方差展开算法回顾在讨论所提出的算法之前,本文首先介绍一下传统最大方差展开的背景知识。最大方差展开可以自主学习到一个可以把数据在低维度空间展开的核,更准确地说是优化出一个核[4]NDNd。假设Xx(xR)是建模数据,YyΦ()x(yR)是降维后的nn1nnnn1n65空间,其中N是建模数据点的数量,D是原空间维度,d是降维空间的维度(dD)。目标函数的目的是在低维空间展开数据,所以可以它可以设置为最大化低维空间两两数据点间距离的平方和,即12maxmax||Φ()xijΦ(x)||(1)2Nij,与此同时,这个优化还应该加上两个约束:局部等距约束和中心化约束。NN70局部等距约束:这个约束的目的是在核空间保持数据流行的局部结构。假设SR是一个二元邻接矩阵,其数据代表了x与x是否为临近点。这个约束具体的定义如下:ij22TΦ()()xΦxxxD对所有S1或SS1(2)iiiji,jij,ij,中心化约束,这个约束的目的是去除最终优化结果的一个自由度,Φ()0xi(3)i75由于上述介绍的优化包含二次项,它不是凸优化。这里为了简便计算,引入TKΦ()()xΦx。这样目标函数(1)和约束(2)(3)均可以表达为K的形式,也就得到了最ij,ijij,终的优化形式,-2- 中国科技论文在线http://www.paper.edu.cnmaxTr()KKst..K0(4)Kij,0ij,TKKK21D对所有S或1SSii,,,,jjijijij,ij,[5]其中半正定矩阵K就是学习出来的核。目前有很多算法工具来求解这个问题,比如CSDP。80需要特别提出的是这个优化的解是全局最优的。2快速最大方差展开算法随着近几十年的“数据爆炸”,更多的操作数据需要被分析。然而在这些数据中发掘真正有用的信息是很有挑战性的。最大方差展开就是这样一种可以有效提取信息的降维工具。假设N是建模点的数量,C是约束的数量,最大方差展开所需的计算复杂度是85OONCC=(33)[5],而空间要求是OONCS=(22)[5]。可以明显看出传统的最大方差展开只能用来对小规模数据降维,这大大限制了最大方差展开算法是使用。直觉上来看直接减小N是解除这个“诅咒”的有效办法。更具体地来说,算法的目标是使用更少的点去学习一个近似的核,同时不能损失太多的精确度。精确度可以如下定量度量:NN(KKˆˆ)22||KK||(5)ij,,ij2ij1190其中K和Kˆ分布代表K和Kˆ的第(,)ij个元素。ij,ij,2.1快速最大方差展开快速最大方差展开算法建立在如下的假设上:所得到的核是平滑的,在建模数据中距离相近的点所对应的核数据是相似的。这个假设对于真实世界来说是普适的,并且意味着在核学习时可以使用相近点的均值点来代替这些点。因此,可以把建模数据分成若干子类,每个95子类内数据点间的相似性远远大于不同子类间的相似性。快速最大方差展开算法是一个两层的“树”状结构,包括一个“全局层”和一个“局部层”。在全局层中,首先将原始的建模数据NXxnn1均等分为P类,每一类包含NNPP个数据点,进而计算出每一类的代表性点(1)x,p(1)1xxpj(6)NPjp()ppp100其中()pHH1N(HpN(1),pP1,,)代表了第p类所含建模点PPP(1)(1)的序号。把所有的代表性点记为Xx,并且使用(4)中的优化学习到核矩阵ii1(1)PP(1)(1)(1)KR。Kx(,)x代表了类i与类j间的核值。ij,ij(1)(1)(1)(1)由于x和x是类i与类j的代表性点,只需要简单重复(,)xx来填满子矩阵ijijKˆ(1)RNNPP,ij,-3- 中国科技论文在线http://www.paper.edu.cn(1)(1)(1)(1)(,)xx(,)xxijijˆ(1)105K(7)ij,(,)xx(1)(1)(,)xx(1)(1)ijij其中ij,1,,P,(,)代表相应的核方程。在每一块中,所有的元素都是相同的。图1中的近似核矩阵(Kˆ,Kˆ(1)RNN)定义为KKKˆ(1)ˆ(1)ˆ(1)1,11,jP1,KKˆˆ(1)KKKˆ(1)ˆ(1)(1)ii,1,ji,PKKKˆ(1)ˆ(1)ˆ(1)PP,1,jP,PK0ˆ(1)00Kˆ(1)Kˆ(1)(8)1,11,j1,P0Kˆ(1)K0Kˆ(1)(1)ij,ii,1,P000Kˆ(1)KK0ˆ(1)ˆ(1)PP,PP,1,jKˆ(1)Kˆ(1)DO(1)在全局层的近似核的精确度可以通过如下计算得到NN(1)(KKˆˆ)2||KK(1)||2ij,,ij2ij11110ii2(9)PPHNHNPPΟUi"()xxe,(ej)ij,i11jiH11ijjHij11iHjHij1111i"ij其中HiN(1)P。()xxij11,代表()xxij11,的偏微分。eiH1i和ej1Hj是通过泰勒级数展开得到的。UU在上述推导中,矩阵ΟΟ是一个全1矩阵,ij,111111UΟ11(10)111111i(1)i(1)115exii1iH1ix和exj1jH1jxj代表了真实数据点(xiH1i和xj1Hj)与所对应类别代表性点(1)(1)iijj(x和x)之间的差值,其中iH1,,HN(jHH1,,N,ij,1,,P)。ij1P1PiiC随着P的变大,N会变小,进而e和e会变小,精确度上升。然而计算复杂度O和空间Pi1j1S要求是O限制了P的最大值。为了在有限的计算资源的前提下进一步提高准确性,每一类(2),i内的点也被引入到算法中。如图1所示,在类i内使用Xx来学习到核矩阵jj()i120K(2),iRNNPP。也就是,-4- 中国科技论文在线http://www.paper.edu.cn(,)xxii(,xxiiN)1111P(2),iK(11)(,xx)(,)xxiN11PPiiN11iNP其中iHi1(iP1,,)。由于K(2),iRNNPP代表了类i的核矩阵,只需要将这个矩阵填1充到子矩阵K(2)的主对角块处。所以,在局部层的近似核矩阵(Kˆ(2)RNN)定义为K00ˆ(2)01,10Kˆ(2)0Kˆ(2)0(12)ii,00Kˆ(2)P,P125接着可以得到KˆKKKˆˆˆ(1)(2)(13)O(2)在全局层的近似核的精确度可以通过如下计算得到NN(2)(KKˆˆ)2||KKK(1)ˆ(2)||2ij,,ijO2ij11ii2(14)PPHNHNPPΟLi(xxe,)(ej)ij,i11jiH11ijjHij11iHjHij1111其中011110L130Ο11(15)011110L0和1代表全1与全0矩阵,其大小均为NN。由于Ο的对角块矩阵元素均为0,很明PP(2)(1)显可以得到。-5- 中国科技论文在线http://www.paper.edu.cn1(1)HNPxx1jjH11ixN(1)HNPnn1xixjijH1P(1)HNPxxPjjHP1(1)(2),iKK,1iP,,Kˆ(1)Kˆ(2)OKˆ(1)DKKˆ(1)Kˆ图1快速最大方差展开的分解与组合1352.2计算复杂度与空间约束上文已经提到,假设N是建模点的数量,C是约束的数量,最大方差展开所需的计算C33S22复杂度是OONC=(),而空间要求是OONC=()。由于C可以认为约等于kN,其中Ck为临近点的数量,传统最大方差展开算法的计算复杂度O可以计算为,MVUC3333OO()NCOk((1)N)(16)MVUC140对于快速最大方差展开来说,计算复杂度O为FMVUC3333OO()PCP*O()NCFMVU12P(1kN33)(17)332Ok((1)PO)()12P其中C和C分别代表全局层与局部层的约束数量;k和k分布分别代表全局层与局部层的1212CC临近点数量。由于PN,很容易得到OO。同样地,快速最大方差展开的空间要FMVUMVUSSSS求O远比传统最大方差展开的空间要求O小,OO。FMVUMVUFMVUMVU1452.3基于快速最大方差展开的过程监测将Kˆ进行特征值分解,αKˆˆαKK(1)ˆ(2)α(18)lllOl结果说明得分yˆ是两层中核矩阵得分的和。所以得分yˆ可以由如下形式近似计算得到nn-6- 中国科技论文在线http://www.paper.edu.cn(1)(2)yyyˆˆˆnnn(19)(1)(2),pyypnH2150类似于基于最大方差展开的过程监测,本文使用经典的T与Q统计量来监测系统运行状态是否异常。3仿真3.1数值仿真这个数值仿真系统来源于一个有缺口的圆环xsin()te11155(20)xcos()te22其中ee,是独立的随机噪声,服从高斯分布N(0,0.01)。t是输入参数,服从均匀分布12[0.1,1.9]。ee,与t都是不可测的,而只有x和x是可测得的。1212图2数值仿真中的建模数据160设置这个数值仿真的初衷在于评价快速最大方差展开所学习出的近似核的精确度。为了可以得到传统最大方差展开所学习出的精确的核,建模点的数量被限制在很低的水平。如图2所示,320个采样点被选作建模数据。传统最大方差展开中通过直接使用全部的建模数据320320来学习出核KR。而对快速最大方差展开来说:在全局层中,数据被分为P=16类,(1)1616每类含N=20个数据点,只有一个核KR被通过图3.(a)的点学习出来;在局部层中,P(2),i2020165分别使用图3.(b)中的点学习出核KR,i116。所有算法中临近点的设置均[4]遵从。表1给出了上述算法所有的参数。如表1中所示,快速最大方差展开算法的速度远远比比传统最大方差展开算法快。表1中同时给出了快速最大方差展开算法每层的精确度,(1)(2)并且确认了精确度在局部层中有所提升。仿真结果证实了第2节中的理论分析。(a)(b)图3快速最大方差展开不同层的建模点(a)全局层(b)局部层-7- 中国科技论文在线http://www.paper.edu.cn170表1数值仿真的参数、训练时间与精确度算法最大方差展开快速最大方差展开层“global”“local”学习核所用的点的数量3601620临近点数222训练时间(秒)5.69230.20471.1253的均值0(1)32020.5120(2)32020.46673.2连续搅拌釜式加热器过程这个例子主要考察传统最大方差展开算法与快速最大方差展开算法在连续搅拌釜式加[6]热器过程(CSTH)上的过程监测效果。连续搅拌釜式加热器过程最初由提出,使用PI控175制器。一共选择了六个变量进行过程监测:蒸汽阀门、冷水阀门、控制器输出信号、液位、冷水流量和温度。在正常工况下搜集的600个数据点被选为建模数据。另外产生了四个测试数据集,依次为正常工况、液位随机改变故障工况、冷水阀门随机改变故障工况和冷水流量阶跃改变故障工况,分别命名为IDV0、IDV1、IDV2和IDV3,每一个都含有600个数据点。所有的故障均在第201个点被引入。表2给出了所有的故障检测率。为了更直观地呈现结果,180表4(a)(b)分别给出了传统最大方差展开和快速最大方差展开在IDV1数据集上的具体的检测结果。从上述检测结果可以很容易地看出快速最大方差展开算法与传统快速最大方差算法在过程监测领域表现得基本相同。但是快速最大方差展开算法所用的时间是明显减少的。表2传统快速最大方差算法和快速最大方差展开算法的检测率故障号最大方差展开快速最大方差展开22TQTQIDV00.000.010.010.02IDV10.750.810.730.83IDV20.450.680.450.67IDV31.001.001.001.00(a)-8- 中国科技论文在线http://www.paper.edu.cn(b)185图4IDV1数据集的检测结果(a)传统最大方差展开(b)快速最大方差展开4结论本文提出了一种基于分层技术的快速最大方差展开算法,这个算法可以在保证精确度、保证过程监测效果的同时显著降低计算复杂度和空间要求,以此来适应大规模数据的应用。190本文通过一个数学例子和连续搅拌釜式加热器过程验证了所提算法的有效性。快速最大方差展开算法将建模数据切分为多类并将这些类分配到局部层,同时在每一类内选取出一个代表性点来组成全局层。这样使得传统的最大方差展开算法仅仅作用于较小的数据集上,以此来显著降低计算复杂度和空间要求。如果每一个类仍然包含有太多的数据点以至于计算机无法处理的话,可以在每一类内进行切分,这样就在一个类内产生了一个新的两层树。这个切分195过程可以一直进行下去直到每一类所含的点数都是可以被计算机直接处理的。[参考文献](References)[1]VENKATASUBRAMANIAN,V.,RENGASWAMY,R.,YIN,K.&KAVURI,S.N.2003.Areviewofprocessfaultdetectionanddiagnosis:PartI:Quantitativemodel-basedmethods.Computers&chemicalengineering,27,293-311.200[2]JOEQIN,S.2003.Statisticalprocessmonitoring:basicsandbeyond.Journalofchemometrics,17,480-502.[3]LEE,J.-M.,YOO,C.,CHOI,S.W.,VANROLLEGHEM,P.A.&LEE,I.-B.2004.Nonlinearprocessmonitoringusingkernelprincipalcomponentanalysis.ChemicalEngineeringScience,59,223-234.[4]WEINBERGER,K.Q.&SAUL,L.K.2006.Unsupervisedlearningofimagemanifoldsbysemidefiniteprogramming.InternationalJournalofComputerVision,70,77-90.205[5]BORCHERS,B.1999.CSDP,AClibraryforsemidefiniteprogramming.OptimizationmethodsandSoftware,11,613-623.[6]THORNHILL,N.F.,PATWARDHAN,S.C.&SHAH,S.L.2008.Acontinuousstirredtankheatersimulationmodelwithapplications.JournalofProcessControl,18,347-360.-9-'