• 311.90 KB
  • 2022-04-22 13:44:14 发布

癌症相关indels的数据库构建及其特征分析.pdf

  • 5页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'中国科技论文在线http://www.paper.edu.cn癌症相关indels的数据库构建及其特征分#析**岳振宇,程娜,赵乐,严花,夏俊峰5(安徽大学健康科学研究院,合肥230601)摘要:下一代测序技术(NGS)的发展产生了多种癌症类型的信息,其中包括大量的基因组变异数据。驱动突变是赋予癌细胞生长优势的一种变异,可以作为潜在的癌症治疗靶标。研究人员在鉴定驱动突变方面做出了许多努力。由于插入/缺失(indels)这种突变类型会对基10因组序列产生相对较大的影响,因而鉴定病人体内特定indels的临床意义往往具有很大的挑战。目前,已存在一些数据库或者工具,用于对潜在致病的indels进行模拟评估。然而,对indels在癌症中起到的功能描述做出全面性整理的数据库是缺乏的。因此,我们通过文献检索建立了人工注释的癌症驱动indels数据库,以便对癌症基因组检测结果注释分析。我们获得了每个氨基酸改变所对应的基因组位置信息,连同文献中的证据上传到该数据库。15我们使用Jsp、Servlet和JavaScript来构建网站,使用MySql来存放数据。随后,我们对这些indels数据进行特征分析。该数据库及其特征分析为癌症indels的功能研究提供了重要的资源。关键词:癌症;数据库;插入缺失突变中图分类号:Q31920ConstructionofdatabaseofcancerrelatedindelsandfeatureanalysisYUEZhenyu,CHENGNa,ZHAOLe,YANHua,XIAJunfeng(InstituteofHealthSciences,AnhuiUniversity,Hefei230601)25Abstract:Next-generationsequencing(NGS)methodsproduceawealthofdetailedinformation,includingvastgenomicalterationsacrossmultipletumortypes.Effortshavefocusedonidentifyingdrivermutationsthatconferaselectivegrowthadvantageofcancercellsbecausetheyrepresentpotentialtargetsfortherapy.Becauseofthegreateffectonsequence,insertions/deletions(indels)areoftenchallengingtoassigntheclinicalrelevanceofspecificindelsobservedinpatients.Currently,30therearenumerousdatabasesandtoolsthatprovideinsilicoassessmentforpotentialpathologicalindels.However,thereisnocomprehensiveresourceforindelswithfunctionalcharacterizationincancer.Therefore,wecreatedadatabasederivedbymanualcurationofliteraturecontainingpotentiallyactionablecancerdriverindelstofacilitateannotationofcancergenomictesting.Thechromosomelocationandallpossiblenucleotidepositionsforeachaminoacidchangewereobtainedanduploaded35totheDatabaseofCancerIndelswithrelatedliteraturereferenceshowingfunctionaldriverevidence.ThewebsitewasconstructedusingJsp,ServletandJavaScriptandthedatabasewasbuiltusingMySQLserver.Finally,thefeaturesoftheseindelswereanalysed.Itshouldbeausefulresourceforboththecomputationalanalysisandexperimentalstudyoncancerrelatedindels.Keywords:cancer;database;indel400引言[1]近年来,许多大规模的基因组测序计划产生了大量的突变数据,包括单核苷酸变异,拷贝数变异以及大片段的结构变异,小片段插入或缺失(indels)。随着下一代测序技术的发展,人类基因组上大量的插入和缺失突变被检测出来,其数目仅次于单核苷酸突变的数量。基金项目:高等学校博士学科点专项科研基金(20133401120011);国家自然科学基金(61672037)作者简介:岳振宇(1988-),男,博士研究生,主要研究方向:生物信息学通信联系人:夏俊峰(1983-),男,教授,主要研究方向:生物信息学.E-mail:jfxia@ahu.edu.cn-1- 中国科技论文在线http://www.paper.edu.cn[2]当indels发生在人类基因功能上重要的位点时很可能影响基因的功能和人类疾病。插入和45缺失可能从很多方面来影响基因的功能,框内的indels是由3的整数倍的核苷酸的插入和删[3]除引起的,其会导致氨基酸在插入缺失位置的添加或者删除,因此会影响蛋白质的功能。移码的indels是由非3的整倍数的核苷酸的插入和删除导致的,这种密码子部分的变化会改变翻译阅读框,产生一段新的下游序列,所以相较于框内的插入和缺失突变,移码突变翻译[4]形成的蛋白质与天然蛋白质有很大差异。除此之外,在启动子区域的indels有能够破坏转[5,6]50录因子结合位点的潜能,或者形成新的转录因子结合位点,因此来影响基因表达。发生在外显子和内含子区域的indels可能会干扰RNA结合蛋白的结合位点,这可能对RNA的[7][8,9][10]加工有影响,包括RNA的编辑和可变剪切,miRNA的结合和聚腺苷酸化。虽然indels数据在很多数据库中都存在,但是现在并没有一个独立的癌症相关的indels数据资料库。为了便于研究indels对癌症发生发展的影响,我们建立了人工整理的高质量的55cancerindels数据库。数据库提供了文本搜索的访问接口,可以很容易地浏览和根据癌症类型、基因名来查找相应的突变,以及突变对应的等级和相应的文献证据。该数据库的构建及其相关的特征分析,可能为癌症的发病机制研究以及新的治疗方案的开发提供了有用的资源。1数据收集与整理60我们首先从PubMed下载cancerindels相关的文献,检索关键词为“cancer”、“tumor”、“insertion”、“deletion”等。数据库的当前版本对约300篇文献全文里的内容进行了详细的整理,并提取出有直接或间接实验证据的癌症indels条目:该突变的发生会导致癌症的发生、转移或者复发;该突变的发生会导致癌细胞的药物敏感性或者药物抗性的发生;该突变在某种特定的癌症类型的样本中出现的频率很高;该突变处在蛋白的关键结构区域等。目前65版本的数据库有2147条记录,涵盖15种不同的癌症组织,100多个不同的基因。为保证数据的质量,每条记录由至少两个不同的注释者进行双重检查。2网站构建我们将所有indels数据存放在MySql数据库中,使用Jsp、Servlet和JavaScript来构建我们的网站。如图1所示,网站提供了基于Variant和LevelorRule的检索方式:在基于Variant70的检索方式中,Cancer和Gene提供下拉菜单,而Variant提供下拉菜单和文本框输入两种方式,后者能够实现模糊查询;在基于LevelorRule的检索方式中,Level和Rule也都提供了下拉菜单。两种方式各自中的下拉菜单是级联的,下一个下拉菜单的值会根据上一个菜单的值而改变。-2- 中国科技论文在线http://www.paper.edu.cn75图1Variant检索模块和LevelorRule检索模块Fig.1VariantsearchmoduleandLevelorRulesearchmodule.3特征分析该数据库中共有人工注释高质量的2147个癌症相关的indels突变。表1为DatabaseofCancerIndels与其他数据库中indel数目的比较。表中的其他4个数据集都是近年来出现的80与癌症的发生发展及治疗相关的突变资源库。这些数据库中都包含大量的点突变及其他多种类型的突变数据。如表1所示,DatabaseofCancerIndel在数量上远超过现存的癌症特异数据库中相同突变类型。接下来我们将针对indels的特点,具体论述如何分析这些数据条目。表1与其他数据库中indel数目的比较Table1ComparisonwithothercancerrelateddatabasesinnumberofindelDatabaseofCancerIndelsDoCMCIViCPCTCanDLNumber2147343753085注:DoCM,DatabaseofCuratedMutations.CIViC,ClinicalInterpretationofVariantsinCancer.PCT,PersonalizedCancerTherapy.CanDL,CancerDriverLog.3.1总体水平分析首先,根据核苷酸残基改变的数目是否为3的整数倍可把indels分为移码突变和非移码突变。对于移码突变,我们将其分为6种基本的类型:1-1,2-2,3-3,1-2,2-3,3-1。这里,90前一个数字表示indel起始的密码子的位置,第二个数字表示同一个或下游的密码子中该indel结束的位置。对于非移码突变,我们将其分为3种基本的类型:1-3,2-1,3-2。这里两个数字的含义与上面相同,即分别代表indel起始和终止的密码子位置。以这9种基本的indels类型,可以分别对插入和缺失做出频率分布的分析。-3- 中国科技论文在线http://www.paper.edu.cn3.2基因组水平分析95在基因组水平上,可以对indel本身及其与所在gene的关系描述分析,如下:1.在插入或缺失两种情况下,indels长度的分析;2.indels在编码序列上的相对位置,即indels在转录本上的起始位置除以该转录本的总长度。尤其对于移码突变,这个相对位置越靠近转录本的前端,该突变对蛋白功能的影响就越大。1003.indels所影响的区域内保守性的核苷酸残基在该基因所有保守性的残基中所占的比例。这个比例越高,也就说明indels对基因的保守性的破坏越大。位点的保守性分数可以用[11]PhyloP指标来衡量。3.3蛋白质组水平分析在蛋白质水平上,indels对其结构和功能的影响可以使用多种方法分析,例如,野生型105的蛋白质与发生indels的蛋白质之间共同的氨基酸残基数目。另外,蛋白质的结构域是具有特定三级结构的特异结构区域,往往具有独立的生物功能。因此,蛋白质中被indels影响的功能结构域的比例对于其致病性的评估也具有重要意义。pFam数据库的结构域可以用于此[12]指标的计算分析。4结论110本文给出了以indels这种突变类型为中心的癌症突变数据库的系统描述。数据库中的数据来源于一系列癌症突变研究的文献,其中大多数在原始文献中进行了突变功能实验的验证。该数据集可以作为金标准检验的数据集,文中的特征分析模式可以用于开发和验证新的癌症驱动indels的生物信息预测方法。同时,也可以帮助研究人员及临床医生识别和鉴定癌症相关的indels突变,促进癌症靶向治疗和个体化医疗的发展。115[参考文献](References)[1]VuongH,ChengF,LinCC,etal.Functionalconsequencesofsomaticmutationsincancerusingproteinpocket-basedprioritizationapproach[J].GenomeMedicine,2014,6(10):81.[2]MullaneyJM,MillsRE,PittardWS,etal.Smallinsertionsanddeletions(INDELs)inhumangenomes.[J].120HumanMolecularGenetics,2010,19(R2):131-6.[3]ZhangX,LinH,ZhaoH,etal.Impactofhumanpathogenicmicro-insertionsandmicro-deletionsonpost-transcriptionalregulation.[J].HumanMolecularGenetics,2014,23(11):3024-34.[4]DouvilleC,MasicaDL,StensonPD,etal.AssessingthePathogenicityofInsertionandDeletionVariantswiththeVariantEffectScoringTool(VEST‐Indel)[J].Humanmutation,2016,37(1):28-35.125[5]SunT,GaoY,TanW,etal.Asix-nucleotideinsertion-deletionpolymorphismintheCASP8promoterisassociatedwithsusceptibilitytomultiplecancers[J].Naturegenetics,2007,39(5):605-613.[6]BhangaleTR,RiederMJ,LivingstonRJ,etal.Comprehensiveidentificationandcharacterizationofdiallelicinsertion-deletionpolymorphismsin330humancandidategenes[J].Humanmoleculargenetics,2005,14(1):59-69.130[7]SimpsonL,AphasizhevR,GaoG,etal.MitochondrialproteinsandcomplexesinLeishmaniaandTrypanosomainvolvedinU-insertion/deletionRNAediting.[J].Rna-aPublicationoftheRnaSociety,2004,10(2):159-70.[8]BakhshiA,GuglielmiP,SiebenlistU,etal.ADNAinsertion/deletionnecessitatesanaberrantRNAspliceaccountingforamuheavychaindiseaseprotein[J].ProceedingsoftheNationalAcademyofSciencesofthe135UnitedStatesofAmerica,1986,83(8):2689-93.[9]ZhongX,LiuJR,KyleJW,etal.AprofileofalternativeRNAsplicingandtranscriptvariationofCACNA1H,ahumanT-channelgenecandidateforidiopathicgeneralizedepilepsies.[J].HumanMolecularGenetics,2006,-4- 中国科技论文在线http://www.paper.edu.cn15(9):1497-1512.[10]PatraquimP,WarneforsM,AlonsoCR.EvolutionofHoxPost-TranscriptionalRegulationbyAlternative140PolyadenylationandMicroRNAModulationWithin12DrosophilaGenomes[J].MolecularBiology&Evolution,2011,28(9):2453-60.[11]SiepelA,BejeranoG,PedersenJS,etal.Evolutionarilyconservedelementsinvertebrate,insect,worm,andyeastgenomes[J].Genomeresearch,2005,15(8):1034-1050.[12]FinnRD,CoggillP,EberhardtRY,etal.ThePfamproteinfamiliesdatabase:towardsamoresustainable145future[J].Nucleicacidsresearch,2016,44(D1):D279-D285.-5-'