时间:2023-08-17 18:04:59
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇生物信息学分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
>> 拟南芥和大白菜YABBY蛋白家族的生物信息学分析 黄瓜DVR基因的生物信息学分析 新疆细粒棘球绦虫EgAgB8/3蛋白的生物信息学分析及意义 人ALK-1近端启动子的生物信息学分析 酵母转录因子结合位点保守性的生物信息学分析 FZ6基因及其蛋白的生物信息学分析 玉米谷胱甘肽过氧化物酶的生物信息学分析 欧文氏杆菌铁代谢相关基因的生物信息学分析 丹参SmNAC1基因的克隆和生物信息学分析 小菜蛾p38MAPK基因的克隆与生物信息学分析 棉铃虫类胰蛋白酶的生物信息学分析 葡萄NAC转录因子的生物信息学分析 抗逆性转录因子NAC的生物信息学分析 沙棘WRI1转录因子基因的生物信息学分析 水稻2个F―box基因的生物信息学分析 小菜蛾PxALP1基因的克隆与生物信息学分析 白桦五个MYB转录因子的生物信息学分析 斑马鱼TATA结合蛋白的生物信息学分析 C3和C4植物中PEPC的生物信息学分析 丙酮醛诱导细胞凋亡相关基因SHMT2L的生物信息学分析 常见问题解答 当前所在位置:)和WOLFPSORT server(http://psort.nibb.ac.jp)预测蛋白质的亚细胞定位情况;利用在线软件ScanProsite(http:///cgi-bin/prosite/ScanView)分析蛋白质所含模体;蛋白质二级结构预测和三维建模分别使用在线软件SOPMA(http://npsa-pbil.ibcp.fr/cgi-bin/secpred_sopma.pl)和SWISS-MODEL完成[11]。
2 结果与分析
2.1 不结球白菜BcGAPDH蛋白质理化性质分析
对不结球白菜BcGAPDH氨基酸序列的理化性质进行分析,结果表明,该酶含有328个氨基酸,总相对分子量为35 161.2,理论等电点pI值为9.03,负电荷氨基酸(Asp+Glu) 37个,正电荷氨基酸(Arg+Lys)36个,分子式C1558H2507N433O473S9,原子总数
4 980,摩尔消光系数1.043(胱氨酸全按半胱氨酸计),该酶蛋白不稳定性参数为20.46,属于稳定蛋白,其脂肪系数为99.54,平均亲水性(GRAVY)为0.006,预测该蛋白质为水溶性蛋白质。
2.2 不结球白菜BcGAPDH蛋白质跨膜结构域及疏水性的预测和分析
用TMpred在线软件对不结球白菜BcGAPDH氨基酸序列的跨膜结构域进行预测,结果(图1)表明,不结球白菜BcGAPDH整条肽链都位于细胞膜外,说明其不存在跨膜区。此外,利用在线软件PHDhtm和ANTHEPROT对该酶跨膜螺旋进行预测,结果与TMpred所预测的结果一致,即均没有跨膜螺旋。因此,此被预测的跨膜螺旋区可信度较高。
蛋白质的疏水性分析是蛋白质二级结构以及三级结构预测中一个必要过程,通过分析可以得到蛋白质的亲疏水区域,一方面为二级结构预测结果提供参考,另一方面为结构域以及功能域的划分提供依据。因此,对不结球白菜BcGAPDH氨基酸序列进行疏水性分析,结果(图2)表明,多肽链第304位的氨基酸具有最低分值-4.500,亲水性最强;第212位的氨基酸具有最高分值4.200,疏水性最强。整体来看,亲水性氨基酸均匀分布在整个肽链中,且多于疏水性氨基酸。因此,整个多肽链表现为亲水性,没有明显的疏水区域,可认为不结球白菜BcGAPDH是亲水性蛋白质。结合跨膜结构域的预测结果,可以推断不结球白菜BcGAPDH不存在明显的疏水区域,与其不存在跨膜结构域的特征相吻合。
2.3 不结球白菜BcGAPDH信号肽及亚细胞定位的预测和分析
信号肽分析有助于蛋白质功能域的区分及蛋白质细胞定位。SignalP v3.0软件是神经网络、隐马尔科夫模式工具[12],将不结球白菜BcGAPDH的ORF通过该软件分析(图3),获得ORF的Cmax值为0.083、Ymax值为0.083、Smean值为0.561、Smean值为0.182,前3个值的位点分别在第25、25、1位。根据软件的默认选择,将Cmax值>0.5和Smean值>0.5的ORF确定为具有信号肽。根据分析结果,此信号肽计算结论为NO,表示没有信号肽存在。
对基因产物在亚细胞位置的了解对判定这些基因产物的功能起着重要作用。用Target P server程序进行不结球白菜BcGAPDH蛋白质的亚细胞定位,结果表明,基本确认BcGAPDH蛋白质在线粒体中发挥生物学作用,氨基酸序列长度为328个,定位于叶绿体、线粒体和其他细胞部分的得分分别为0.031、0.745、0.572,作为信号肽的可能性为0.018,软件的最终定位预测在线粒体,可信度为5。用 Subloc V server和WOLFPSORT server程序进行验证分析,结果一致。
2.4 不结球白菜BcGAPDH蛋白质的模体分析
将不结球白菜BcGAPDH蛋白质的氨基酸序列利用在线软件ScanProsite进行分析,发现其含有多种模点(图4),其中包括1个氨基化合物位点(M1),1个依赖于cAMP或cGMP的蛋白质激酶磷酸化位点(M2),6个酪蛋白激酶Ⅱ磷酸化位点(M3),3个N-糖基化位点(M4),6个N-肉豆蔻酰化位点(M5),4个蛋白质激酶C磷酸化位点(M6)。
2.5 不结球白菜BcGAPDH蛋白质二级结构的预测分析
利用SOPMA在线工具预测不结球白菜 BcGAPDH蛋白质的二级结构,结果如图5所示,BcGAPDH含有比较丰富的二级结构,由112个氨基酸残基组成α螺旋结构,占全部氨基酸残基的34.15%;82个氨基酸残基组成延伸链,占全部氨基酸残基的25.00%;由21个氨基酸残基组成β转角,占全部氨基酸残基的6.40%;由113个氨基酸残基组成随机卷曲,占全部氨基酸的34.45%。可以看出,随机卷曲和α-螺旋是BcGAPDH多肽链中的主要结构元件,延伸链散布于整个蛋白质中。
2.6 不结球白菜BcGAPDH蛋白质三维结构的预测
将不结球白菜BcGAPDH氨基酸序列上传到SWISS-MODEL的建模服务器中进行三维建模[13,14],然后在ViewerLite 4.2软件中进行序列编辑,获得BcGAPDH的三级结构模型,结果如图6所示。
3 讨论
GAPDH生物学的多功能性基于不同的研究结果,这些新的发现可以分为2组:第1组包括鉴定GAPDH新活性的研究,结果发现GAPDH有别于传统的脱氢酶活性的新功能;第2组包括鉴定GAPDH与细胞内大分子的特异性结合,为GAPDH新功能提供了重要证据。
早期的研究证明GAPDH是一个膜结合蛋白[15],发现细胞中60%~70%的GAPDH能与膜结合,但不结球白菜BcGAPDH不具有该活性,因为通过本试验分析该酶无跨膜区,是亲水性蛋白质。另外,研究表明,GAPDH还具有磷酸转移酶/激酶的活性,不仅能自身磷酸化,而且还能磷酸化其他蛋白质。本试验对不结球白菜BcGAPDH蛋白质的模体分析发现,该酶包括蛋白质激酶磷酸化位点、酪蛋白激酶Ⅱ磷酸化位点和蛋白质激酶C磷酸化位点,表明BcGAPDH在不结球白菜体内具有磷酸化活性,BcGAPDH在其细胞病毒生理学上可能扮演着重要角色。
GAPDH广泛存在于众多生物体中,并且具有高度种属保守序列,它作为一个多功能蛋白质,其结构与功能的关系仍有待研究。目前,GAPDH在机体的生理和病理状态下的作用越来越引起有关学者的关注。但迄今为止,GAPDH在细胞中的功能还没有完全搞清楚,因此,本试验对不结球白菜BcGAPDH结构和功能的分析将有助于研究者进一步了解GAPDH反应的机制及所需条件。
参考文献:
[1] 李晓泽,刘关君,杨传平,等.西伯利亚蓼甘油醛-3-磷酸脱氢酶基因的cDNA克隆与序列分析[J].植物生理学通讯,2007,43(1):41-48.
[2] NAKAGAWA T,HIRANO Y,INOMATA A,et al. Participation of a fusogenic protein, glyceraldehyde-3-phosphate dehydrogenase, in nuclear membrane assembly[J]. J Biol Chem,2003, 278(22):20395-20404.
[3] TISDALE E J. Glyceraldehyde-3-phosphate dehydrogenase is required for vesicular transport in the early secretory pathway[J]. J Biol Chem,2001,276(4):2480-2486.
[4] TISDALE E J,KELLY C,ARTALEJO C R. Glyceraldehyde-3-phosphate dehydrogenase interacts with rab2 and plays an essential role in endoplasmic reticulum to golgi transport exclusive of its glycolytic activity[J]. J Biol Chem,2004,279(52): 54046-54052.
[5] ENGEL M, SEIFERT M, THEISINGER B, et al. Glyceraldehyde-3-phosphate dehydrogenase and Nm23-H1/nucleoside diphosphate kinase A. Two old enzymes combine for the novel Nm23 protein phosphor transferase function[J]. J Biol Chem, 1998,273(32):20058-20065.
[6] MEYER-SIEGLER K,MAURO D J,SEAL G,et al. A human nuclear uracil DNA glycosylase is the 37-kDa subunit of glyceraldehyde-3-phosphate dehydrogenase[J]. Proc Natl Acad Sci USA,1991,88(19):8460-8464.
[7] ANDRADE J,PEARCE S T,ZHAO H,et al. Interactions among p22, glyceraldehyde-3-phosphate dehydrogenase and microtubules[J]. Biochem J,2004,384(2):327-336.
[8] RAJE C I,KUMAR S,HARLE A,et al. The macrophage cell surface glyceraldehyde-3-phosphate dehydrogenase is a novel transferrin receptor[J]. J Biol Chem,2007,282(5):3252-3261.
[9] GASTEIGER E,HOOGLAND C,GATTIKER A,et al. The Proteomics Proto-cols Handbook[M]. Totowa,New Jersey:Humana Press,2005.
[10] HOFMANN K,STOFFEL W. TMbase-A database of membrane spanning proteins segments[J]. Biological Chemistry Hoppe-Seyler,1993,374:1-6.
[11] SODING J, BIEGERTA, LUPASA N. The HHpred interactive server for protein homology detection and structure prediction[J]. Nucleic Acids Research,2005,33:244-248.
[12] BENDTSEN J D, NIELSEN H, VON HEIJNE G, et al. Improved prediction of signal peptides:SignalP 3.0[J].J Mol Biol,2004,340:783-795.
[13] SCHWEDE T,KOPP J,GUEX N,et al. SWISS-MODEL:An automated protein homology-modeling server[J]. Nucleic Acids Research,2003,31(13):3381-3385.
【摘要】 目的: 分析肉毒毒素E型重链(BoNT/E HC)的抗原表位及空间结构。方法: 利用在线生物信息学分析工具以及其它分析软件分析重链蛋白的抗原表位和空间结构。结果: 预测并显示了肉毒毒素E型重链的空间结构图,以及9个可能的重链的B细胞抗原表位,静电势图揭示了重链分子结构域的两性特点。结论: 抗原表位的预测对于E型肉毒毒素相关诊疗试剂的开发有指导意义,而结构域的极性分析提示其等电点的不同可能在pH介导的穿膜中起了作用。
【关键词】 肉毒毒素类; 抗原; 表位,B淋巴细胞; 氨基酸序列; 基因重排,B淋巴细胞,重链
Bioinformatic Analysis of Botulinum Neurotoxin
[Abstract] Objective: To analyze botulinum neurotoxin type E heavy chain (BoNT/E HC) antigen epitopes and its spatial structure. Methods: Online bioinformatic analysis tools and some other analysis softwares were used. Results: Tertiary structure of BoNT/E HC chain was anticipated and demonstrated. Nine possible antigen epitopes of the HC were predicted, and electrical potential map revealed the amphoteric domains of the HC. Conclusions: The predicting of antigen epitopes is of importance to the exploiting of BONT/E related agents, and domain analysis suggests domain′s pI is important to pH mediated membrane-passing.
[Key words] botulinum toxins; antigens; epitopes,B-lymphocyte; amino acid sequence; gene rearrangement,B-lymphocyte,heavy chain
肉毒毒素是肉毒梭菌分泌的外毒素,具有抑制外周神经末梢释放胆碱神经递质,麻痹肌肉的毒性作用,微克量级的毒素可致成人死亡,它被认为是已知的毒性最强的物质。肉毒毒素根据血清型分为A、B、C、D、E、F和G7个类型,对人类常见的致病血清型主要是A、B和E型。对于肉毒毒素的结晶和结构分析的相关研究主要集中在A、B两型,而且各型抗原性差别主要在于重链,尤其是受体结合结构域。2007-2008年,利用生物信息学技术,对E型重链的三级结构以及抗原表位进行了分析,判定其潜在的抗原表位,为E型肉毒毒素相关的诊疗试剂的开发提供理论依据。同时,在肉毒毒素中毒机理的相关研究中,分析了BoNT/E HC(heavy chain)的不同结构域的等电点,绘制出三维的静电势图像,显示了组成HC的2个结构域的酸碱双极性,提示在pH诱导的穿膜机制中,这种不同亚基的等电点和静电势的差异是重要的分子理化基础。
1 材料与方法
1.1 BoNT/E HC蛋白的氨基酸序列及结构分析
从NCBI网站GenBank获取全长BoNT/E型肉毒毒素的氨基酸序列(GenBank accession number CAA44558)[1]。第一位M翻译后被切去,其全长共1 251个aa,近前1/3位置处的G419-R421三肽被蛋白酶切去后,单链蛋白分为轻重2条肽链,其中重链编码830个氨基酸(K422~K1251),轻链编码418个氨基酸(P1~K418)[2]。轻链和重链通过二硫键而连接在一起。重链的氨基酸序列如图1所示。
1.2 BoNT/E HC的基本理化性质
使用anthewin软件分析BoNT/E HC全长,以及2个各约50 kD的结构域,即重链N末端的跨膜转运结构域HN (K1~Y408)和重链C末端的神经细胞特异性结合结构域HC (T409~K830)的等电点。
1.3 BoNT/E HC的抗原表位预测
使用anthewin软件系统分析,采用其中的GOR算法,预测二级结构,寻找转角易形成区域;采用Hopp & Woods算法,进行亲水性预测,预测蛋白质中的亲水区域;采用Boger & al.算法,进行可及性预测,预测蛋白质中的溶剂可及性区域;采用Parker方案,进行抗原性指数分析,分析抗原性。对各个参数的结果进行综合分析,最后确定B细胞表位的可能位点[3]。
1.4 BoNT/E HC的空间结构预测
利用在线的SWISS-MODEL软件进行3级结构的同源建模,预测蛋白质的空间构象,并通过Vector NTI suite软件显示蛋白质的3D结构图,并将BoNT/E HC的抗原表位标记在三维结构图上[4]。利用Swiss-PdbViewer 3.7计算BoNT/E HC的静电势并显示三维图像。
2 结果
2.1 BoNT/E HC的一般理化性质分析
利用anthewin软件对BoNT/E HC和其HN结构域和HC结构域进行理化性质分析。HC全长分子量为95.7 kD,等电点为5.175。HN结构域的等电点为4.365,HC结构域的等电点为9.145。
2.2 BoNT/E HC的B细胞抗原表位的预测
本研究从4个方面对BoNT/E HC的抗原表位进行预测,即二级结构中形成转角的可能性、亲水性、可及性和抗原性。Anthewin软件的具体分析结果见图2和表1。
综合不同的预测方法,发现其共有序列为:18-32、78-83、193-199、274-279、433-441、521-526、574-579、675-682、801-811,即为预测的可能的B细胞抗原表位。其中18-32、78-83、193-199、274-279 4个表位位于HN结构域,433-441、521-526、574-579、675-682、801-811 5个表位位于HC结构域。
2.3 重链的三维结构图以及预测的线性表位的位置表1 BoNT/E HC的B细胞抗原表位分析氨基酸序列与蛋白结构数据库中的蛋白质3级结构进行匹配,将结果在vector NTI suite软件中打开,观察BoNT/E HC的三维结构和结构域组成。如图2所示,BoNT/E HC分子含有2个结构域,分别为HN跨膜转运结构域和HC神经细胞特异性结合结构域,前者含有2个α螺旋和1个loop结构,后者包含2个亚结构域。
利用vector NTI suite软件将预测的抗原表位标记在结构图中,观察表位所处的空间位置,验证预测的抗原表位的可行性。如图3、图4所示,分析结果为所预测的抗原表位均位于BoNT/E HC的蛋白质分子表面,其中HN结构域中的274-279表位可能会受到loop结构的空间位阻的影响,HC结构域中的574-579表位可能会受到α螺旋的部分影响,其余的7个抗原表位均有较好的空间可及性。注:左侧为HC神经细胞特异性结合结构域,右侧为HN跨膜转运结构域的2个α螺旋和loop结构,箭头所示为抗原表位的位置
2.4 BoNT/E HC的静电势
将SWISS-MODEL的3级结构预测结果在Swiss-PdbViewer中打开,计算静电势并图像显示。如图5所示,该蛋白的HN结构域的电负性很强,而HC结构域的电正性很强,这与该蛋白质做理化分析时发现的这2个结构域的等电点分别为4.385和9.165相一致。注:图中红色表示电负性,蓝色表示电正性。可见HN结构域的2个α螺旋和 loop为电负性,HC结构域为电正性
3 讨论
通过NCBI的GenBank中找到BoNT/E全长的氨基酸序列,其中K422~K1251共830个氨基酸为毒素重链,重链HC可以划分为HN跨膜转运结构域和HC神经细胞特异性结合结构域。
虽然对BoNT的A型、B型的全长结晶结构研究较多,但E型仅有对其轻链的结晶结构研究报告。本文利用在线的SWISS-MODEL软件预测并绘制了BoNT/E重链的空间结构图,三维图像显示其N末端为HN结构域中套索状的的loop结构,中间区域为HN结构域中的2个长α螺旋为中心形成的圆柱体,C末端为HC结构域中的2个亚结构域,分别是近N端的lectin-like domain和受体结合域所在的近C端的β-trefoil fold[5,6]。此三维图像显示的结构与文献中描述的A型和B型肉毒毒素的结构相一致。
利用生物信息学软件anthewin中的2级结构分析、抗原性分析、亲水性分析和可及性分析,综合分析BoNT/E HC的抗原表位,共在HN结构域中找到4个抗原表位18-32、78-83、193-199、274-279,在HC结构域中找到5个抗原表位433-441、521-526、574-579、675-682、801-811。将这9个表位利用vector NTI suite软件标在该蛋白的三维立体结构图中,提示表位272-277可能会受到loop结构的空间位阻的影响,表位572-577可能会受到α螺旋的位阻影响,其余的7个抗原表位均有较好的空间可及性,从而验证了抗原表位的可行性,并为合成抗原肽、制备该蛋白的特异性抗体、开发疫苗和检验试剂提供了理论依据。通过肉毒毒素A、B和E 3型间的序列比较,分析所得的抗原表位序列的保守性,可以发现78-83、274-279、675-682、801-811的保守性差,可以考虑用作肉毒毒素的型间鉴别。另一方面,通过对这些潜在的抗原位点进行改造,获得低免疫原性的毒素分子,有望解决肉毒毒素在美容抗皱治疗中出现的耐受现象。刘艳华等[7]对E型肉毒毒素重链的抗原表位也做了预测,比较发现与本文预测的274-279、433-441、675-682 3个位点与其相同,其他位点均不同,可能与不同的预测方法有关,实际的可行位点还需通过免疫实验进一步验证。
由于肉毒毒素分子亚基的相对独立性和划分的相对明确性的特点,使得我们可以将亚基作为独立的多肽链进行分析。BoNT/E重链的HN、HC的理化性质显示,HN的pI为4.385,HC的pI为9.165。利用Swiss-PdbViewer软件,计算并显示BoNT/E HC的三维结构静电势图,显示HN结构域有较强的电负性,HC结构域有较强的电正性,这与结构域的等电点预测相一致。众所周知,肉毒毒素可以结合胆碱能神经元末稍,并使其轻链进入胞浆,抑制神经递质囊泡的释放。具体机制的探讨中发现,被吞入内体中的毒素分子在酸性环境中,重链HN跨膜转运结构域可以穿入内体脂双层膜,形成跨膜通道,并将轻链送入胞浆,而HN的具体穿膜机制尚不清楚[8,9]。本文对BoNT/E分子的不同结构域的等电点分析以及静电势分析中,可以给出以下推测,肉毒毒素通过肠道入血液后,在pH约7.4的中性环境中,HN和HC结构域分别带较强的负电荷和正电荷,表现为较强的极性,有较好的水溶性,当毒素和神经细胞受体结合并被吞入内体中,进入pH约5的酸性环境中,从而使HC端的极性增强而HN端的极性减弱,进而有利于HN的穿膜,至于HC端的极性增强对毒素和受体分子亲和力的影响尚不确定。
参考文献
[1] Whelan SM, Elmore MJ, Bodsworth NJ. The complete amino acid sequence of the Clostridium botulinum type-E neurotoxin, derived by nucleotide-sequence analysis of the encoding gene[J]. Eur J Biochem, 1992(2): 657-667.
[2] Antharavally BS, Dasgupta BR. Covalent structure of botulinum neurotoxin type E: location of sulfhydryl groups, and disulfide bridges and identification of C-termini of light and heavy chains[J]. J Protein Chem, 1997(8):787-99.
[3] 史晶, 荫俊, 王慧. A型肉毒毒素Hc片段B细胞表位预测[J]. 生命科学研究,2004(8):139-142.
[4] Schwede T, Kopp J, Guex N, et al. SWISS-MODEL:An automated protein homology-modeling server[J]. Nucleic Acids Res, 2003(13):3381-3385.
[5] Giampietro Schiavo, Michela Matteoli, Cesare Montecucco.Neurotoxins Affecting Neuroexocytosis[J]. Physlologlcal Reviews, 2000(80):718-766.
[6] Chaddock JA, Marks PM. Clostridial neurotoxins: structure-function led design of new therapeutics[J]. Cell Mol Life Sci, 2006(5):540-551.
[7] 刘艳华, 贾扬, 王景林.E型肉毒神经毒素(BoNT)基因序列分析及其B细胞表位预测[J]. 军事医学科学院院刊, 2006(5):419-423.
【关键词】 生物信息学;2型糖尿病;SLC30A8
【Abstract】 Objective To investigate the structure and function of type 2 diabetes gene (SLC30A8) by bioinformatic methods. Methods Based on the human genome resource database, the programs of BioEdit, DANMAN and on line tools SMART, MHMM Server v. 2.0, NetPhos2.0 Serve, 3djigsaw were used for the analysis of protein basic characters, 3D structure and function prediction. Results The protein of gene SLC30A8 encoding was a transmembrane protein,it was important to transport zinc. Conclusions Protein encoded by SLC30A8 gene probably regulates and controls insulin secretion.
【Key words】 Bioinformatics; Type 2 diabetes; SLC30A8
众多研究显示,遗传因素在2型糖尿病(T2DM)发病中起着非常重要的作用〔1,2〕,但由于T2DM系多基因遗传病,研究的进展非常缓慢,直到2005年,不管是采用候选基因法还是连锁定位克隆法,只有极少数几个T2DM的易感基因在一些种族的研究中得到重复验证,而它们仅轻度增加T2DM的发病风险〔3〕。近2年多来,随着高通量SNPS检测技术的出现和全基因组关联(GWA)研究策略的运用,T2DM遗传学的研究取得了一些突破性进展,美国和欧洲多个基因研究组织采用全基因组分析法对1 464例T2DM患者和1 467例糖耐量正常个体的基因结构进行了系统研究,确认了几个与糖尿病相关的新基因位点——TCF7L2、SLC30A8、CDKN2A、CDKN2B、GF2BP2、CDKAL1〔4〕,这些基因的功能和调控机制还不十分清楚。在国内,邬莹等〔5〕研究发现在中国汉族人群中,CDKAL1、CDKN2A/B、SLC30A8等基因上的数个SNP位点与T2DM风险显著相关。SLC30A8基因也是中国人T2DM的一个易感基因,但对SLC30A8基因的研究还不够深入。因此,本文利用生物信息学工具和数据库,对SLC30A8进行分析,研究SLC30A8基因的功能,了解中国人糖尿病的遗传学基础,对预防和控制糖尿病具有重要的理论和临床意义。
1 材料与方法
1.1 材料 人类糖尿病基因SLC30A8核苷酸序列来源于已经提交到GenBank数据库(GI:224589820)的序列。
1.2 SLC30A8基因结构分析及SLC30A8基因编码蛋白质的理化性质分析 通过NCBI的ORF Finder、Protparam、Computer pI/MW确定其完整编码框并预测蛋白质的理化性质;信号肽序列分析采用SignalP工具;蛋白质翻译后修饰的糖基化位点和磷酸化位点分析分别采用DictyOGlyc在线软件和NetPhos 2.0 Server分析;氨基酸序列的同源性比对用ClustalW在线工具完成,通过蛋白分析专家系统Expasy所提供的在线分析工具ProtScale分析蛋白的疏水性。
1.3 SLC30A8基因编码蛋白质的结构和功能分析 利用互联网ExPaSy数据库进行SLC30A8蛋白质的跨膜结构域分析;利用PUMA2服务器的SOPM软件进行蛋白序列的二级结构的分析;利用ExPasy的3djigsaw工具(bmm.icnet.uk/servers/3djigsaw/)向蛋白质立体结构数据库PDB(Protein Data Bank)提交蛋白质的序列;利用RasMol软件显示蛋白的三维分子结构。利用在线工具TMHMM分析蛋白质的跨膜结构域;利用COILS进行卷曲螺旋分析;利用Pfam进行蛋白的结构域功能分析〔6〕。
2 结 果
2.1 SLC30A8在染色体上的定位及基因结构 人类糖尿病基因SLC30A8的Gene ID是169 026,定位在8q24.11。SLC30A8基因核苷酸序列全长41 617 bp(NC000008.9),含8个外显子。mRNA序列长5 373 bp,编码369个氨基酸的蛋白质(NP776250),有2个PolyA信号区域分布位于1 933~1 938、 5 353~5 338,5个PolyA位点分别位于1 955、1 961、2 750、2 754、5 373。见表1。表1 SLC30A8外显子序列和对应的mRNA序列
2.2 SLC30A8基因编码的蛋白基本性质分析
2.2.1 开放阅读框(ORF)分析 ORF从第231个核苷酸开始,终止于第1 340个核苷酸,由其推导的氨基酸序列以甲硫氨酸为起始氨基酸,长为369个氨基酸。
2.2.2 疏水性分析 疏水性是氨基酸的一种重要性质,疏水性氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部,这一趋势加上空间立体条件和其他一些因素最终决定了一个蛋白质折叠形成的三维空间构象〔7〕。通过分析可以得到蛋白质的亲疏水区域,这一结果一方面为二级结构预测结果提供参考,另一方面还可为结构域及功能域的划分提供依据。ProtScale预测结果表明:疏水性最大值为3.044,最小值为-2.889(图1)。
图1 SLC30A8氨基酸序列的疏水性2.2.3 信号肽、跨膜结构域及翻译后修饰分析 进行信号肽分析有助于蛋白质功能域的区分及蛋白质细胞定位。根据SignalP分析,蛋白质C分值、Y分值和S分值分别在248、157和150位点,分别为0.142、0.228和0.833,其信号肽计算结论为“NO”,表明其N端不含信号肽(图2),推测其不是分泌蛋白。图2 SLC30A8氨基酸序列的信号肽预测分析
跨膜结构域是膜中蛋白和膜脂相结合的主要部位,它可能作为膜受体起作用,也可能定位于膜的锚定蛋白或离子通道蛋白等,通过跨膜结构域预测可以正确认识蛋白质结构、功能及在细胞中的作用部位。笔者利用通过TMPRED服务器分析,表明该蛋白质是一个6次跨膜的蛋白质,在4和5螺旋之间有一个富含组氨酸的环(图3)。用Smart对 SLC30A8基因的产物进行蛋白质序列结构功能域分析,结果表明蛋白质含有2个N糖基化位点,2个N酰基化位点。NetPhos 2.0Server磷酸化位点分析结果表明:分值>0.5的磷酸化位点有:丝氨酸(Ser)磷酸化位点8个、苏氨酸(Thr)磷酸化位点1个、酪氨酸(Tyr)磷酸化位点2个,计11个磷酸化位点,这些位点均匀分布于整个多肽链中。见图4。图3 SLC30A8氨基酸序列的跨膜结构域分析图4 SLC30A8氨基酸序列的磷酸化位点分析 图5 SLC30A8蛋白质三级结构的同源建模2.3 基因编码蛋白质结构分析
2.3.1 三级结构构建与功能域分析 图5可见,三级结构是蛋白质结构预测的最终目的。要充分研究蛋白质的功能,就需把蛋白质的高级结构研究清楚。从氨基酸序列预测三级结构的技术很多,其中之一是同源建模,它通过比较未知结构蛋白质序列与已知结构的蛋白质序列来预测蛋白质结构,可以通过同源建模以击中序列的已知结构为模板,对蛋白质进行精确的结构模型构建。作者利用Expasy的3djigsaw工具预测蛋白质的三维结构,利用Ramol软件察看预测结果。
hhhhhhhhcccccccccccchhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhcccc
WHRAEILGALLSILCIWVVTGVLVYLACERLLYPDYQIQATVMIIV
eeeeeeeeeeehhhhhhhhhhhhhhhhhhhccccchhhhhhhhhhhhhhhhhhhhhh
SSCAVAANIVLTVVLHQRCLGHNHKEVQANASVRAAFVHALG
hhhhhhhhheeeccccccchhhhhhhhhhhhhhhhhhhhhhhheeehcccccccc
DLFQSISVLISALIIYFKPEYKIADPICTFIFSILVLASTITILKDFSILL
chhhhhhhhhhcchhhhhhheehhhchhhhhhhhhhhcccccchhhhhhhhhhhhh
MEGVPKSLNYSGVKELILAVDGVLSVHSLHIWSLTMNQVILSA
HVATAASRDSQVVRREIAKALSKSFTMHSLTIQMESPVDQDP
DCLFCEDPCD
hccceceeeeeecccccccccccccccccc(总长度369 bp)
图6 SLC30A8氨基酸序列的二级结构分析
3 讨 论
从以上的研究和分析可以看出,糖尿病相关基因SLC30A8编码的蛋白质是一种多次跨膜蛋白,并且蛋白经过了多种形式的修饰。磷酸化和去磷酸化是细胞内信号传导的重要方式,而此蛋白有11个位点发生了磷酸化,蛋白质通过磷酸化和去磷酸化而发生构象改变导致其活性或性质的改变,从而调节细胞中各个生命活动过程, 所以推测SLC30A8基因编码的蛋白质是一个有功能的比较活跃的蛋白质。另外蛋白质还发生了糖基化和酰基化,推测蛋白质具有传导信号的功能。研究表明SLC30A8编码的是一种在胰岛细胞大量表达的锌离子转运蛋白,其主要功能是将胞浆内的锌离子转运到胰岛素分泌囊泡中,参与胰岛素结晶六聚体的形成〔8〕。因此推测SLC30A8异常,可能会影响胰岛细胞胰岛素的正常分泌。本文利用生物信息学工具盒数据库资源对SLC30A8基因的染色体定位、基因结构及所编码的蛋白质性质、结构等进行了分析,为进一步研究SLC30A8基因在糖尿病发生中的作用提供参考依据。目前关于SLC30A8基因的研究还很少,其编码的蛋白质是如何调控锌离子转运的以及如何参与胰岛素分泌的都将有待于进一步研究。
参考文献
1 Kahn SE.The importance of betacell failure in the development and progression of type 2 diabetes〔J〕.J Clin Endocrinol Metab, 2001;86(19):404758.
2 Bergman RN,Ader M,Huecking K,et al.Accurate assessment of βcell function.The hyperbolic correction〔J〕.Diabetes,2002;51(suppl 1):21220.
3 Sladek R,Rocheleau G,Rung J,et al.A genomewide association study identifies novel risk loci for type 2 diabetes〔J〕.Nature,2007;445(7130):8815.
4 Scott LJ,Mohlke KL,Bonnycastle LL,et al.A genomewide association study of type 2 diabetes in Finns detects multiple susceptibility variants〔J〕.Science,2007;316(5829):13415.
5 Wu Y,Li HX,Ruth J,et al.Common Variants in CDKAL1,CDKN2A/B,IGF2BP2,SLC30A8,and HHEX/IDE Genes are associated with type 2 diabetes and impaired fasting glucose in a chinese han population〔J〕. Diabetes,2008;57(10):283442.
6 薛庆中.DNA和蛋白质序列数据分析工具〔M〕.北京:科学出版社,2009:7298.
【关键词】金铁锁;糖基转移酶;生物信息学
【中图分类号】R9141【文献标志码】 A【文章编号】1007-8517(2017)04-0023-04
Cloning of PtT1 genes of Psammosilene tunicoides and BioinformaticsLI YuanLI GuodongZHANG Aili*QIAN Zigang*
Engineering Research Center for Reproducing Fine Varieties of Chinese Medicinal Plants, Yunnan University
of Traditional, Chinese Medicine, Kunming 650500, ChinaAbstract:Subject To clone the glycosyltransferase gene(PtT1) in Psammosilene tunicoides, and to analyze the bioinformation of PtT1. Methods cDNA was reversely transcriped according to the Transcriptome Sequencing. The protein characteristics was analyzed and the phylogenetic tree of PtT1 was constructed using the bioinformatics. ResultsThe 1529bp sequence in P. tunicoides was obtained, which has a 1377bp ORF, encoding 458 amino acids. The protein molecular weight was5125KD, with the isoelectric point of 580. The protein was located at mitochondria. The PtT1 in P.tunicoides was most similar with Dianthus caryophyllus DcT227 by NCBI blast. Conclusions The PtT1 in P. tunicoides was successfully cloned and analyzed, which provides the foundation for this gene function characterization.
Keywords: Psammosilene tunicoides; Glycosyltransferase; Bioinformation
植物中化合物的糖基化是一种很普遍的生理现象,是植物细胞维持代谢平衡的主要机制之一[1]。糖基转移酶则是负责催化分子糖基化修饰反应的酶,其可将活性糖基从尿嘧啶核苷二磷酸-葡萄糖(UDP-glucose)转移至次级代谢物及植物内外源毒性物质等一系列植物小分子化合物受体中[2]。糖基化经常是次生代谢产物主要的后修饰方式,往往修饰合成途径中的最终一步或几步。植物三萜皂苷类次生代谢产物,往往都具有较高的药理活性价值。其合成途径可前体形成,骨架构建及后修饰等三个过程[3]。次生代谢产物结构的基本骨架形成之后,经过细胞色素P450 酶和糖基转移酶等一系列关键酶基因的后修饰,最终形成众多种类繁多的三萜皂苷[4]。
金铁锁来源于石竹科金铁锁属植物金铁锁Psammosilene tunicoides W C Wu et C Y Wu的干燥根[5]。主要分布在云南、贵州、等省,为云南的道地药材[6],是云南白药等中成药的重要主要组成药之一。其活性成分为齐墩果烷型的三萜总皂苷[7-8],具有显著镇痛、抗炎等的药理活性[9-10]。目前,参与金铁锁三萜皂苷合成途径前体形成,骨架构建等过程的关键酶基因都已有报道[11-12],而后修饰环节中的糖基转移酶基因还未见报道。
鉴于此,本研究根据前期转录组数据,通过设计特异性引物克隆了一条金铁锁PtT1家族基因,命名为PtT1,并采用生物信息学软件对其蛋白质理化性质、Y构特征、功能及系统演化关系等进行了预测分析。结果将为金铁锁PtT1基因的功能鉴定研究奠定基础,揭示金铁锁三萜皂苷的分子形成机制。
1仪器与材料
11植物材料金铁锁采集于云南省丽江市,经云南中医学院钱子刚教授鉴定为石竹科金铁锁属植物金铁锁Psammosilene tunicoides WCWu et C Y Wu。
12仪器高速冷冻离心机(eppendorf);稳压稳流电泳仪(BIO-RAD公司);DYC-33A微型电泳槽(BIO-RAD公司);凝胶成像系统(BIO-RAD公司);PCR反应扩增仪(BIO-RAD公司);移液枪(范围100~1000μL,20~200μL,05~10μL)(eppendorf)。
13试剂EastepTM总RNA提取试剂盒(普洛麦格生产批号:7020001018); PrimeScriptTMⅡ1st strand cDNA Synthesis Kit(TaKaRa生产批号:AK3201);TransStart KD Plus DNA Polymerase(Trans生产批号:K10511);薄型琼脂糖凝胶DNA回收试剂盒(GENEray生产批号:1601G20);pEASY-T1 cloning kit(Trans生产批号:I40914); DL2000 DNA Marker(TaKaRa生产批号:A2101A);引物由生工生物工程(上海)股份有限公司合成;测序由生工生物工程(上海)股份有限公司完成。
2方法
21引物设计根据金铁锁转录组中糖基转移酶基因序列,设计1对特异性引物PtT1F: AAAAATGAAACACCAAGAAAAGCAG,PtT1R: GATTGAAGAAACCAAAGAAGGGGGC。
22PtT1基因的克隆按照EastepTM总RNA提取试剂盒(普洛麦格)说明书提取金铁锁根中的总RNA;并根据PrimeScriptTMⅡ1st strand cDNA Synthesis Kit(TaKaRa)说明书合成cDNA。以cDNA为模板使用TransStart KD Plus DNA Polymerase(AP301)通过PCR扩增目的片段。表1PCR反应体系
ComponentsVolumeTemplate1 μLForward Primer(10 μM)1 μLReverse Primer(10 μM)1 μL5×TransStart KD Plus Buffer10 μL25 mM dNTPs4 μLTransStart KD Plus DNA Polymerase1 μLddH2Oto 50 μLPCR反应条件:94℃、5min;94℃、30s;45℃、30s,68℃、2 min30sec,35个循环;68℃延伸10min。PCR产物经10%琼脂糖凝胶电泳检测后,选取较亮的目的条带进行回收纯化,并将回收产物与1μL pEASY-T1 cloning kit(Trans)配成连接体系,热激转化到大肠杆菌感受态细胞后,涂布于含Amp+ 抗性的LB固体培养基上,37℃过夜培养。挑选白色单克隆进行菌液PCR鉴定,选取阳性单克隆过夜摇菌保种后测序。
23金铁锁糖基转移酶基因的生物信息学分析在NCBI(http://wwwncbinlmnihgov)网站上通过BLAST程序进行序列比对,应用 BioEdit翻译为氨基酸序列,使用ORF Finder(http://wwwncbinlmnihgov/gorf/gorfhtml)确定开放阅读框。并用ProtParam(http://webexpasyorg/protparam/)预测蛋白质相对分子质量等;使用ProtScale(http://webexpasyorg/protscale/)软件进行疏水性分析;TMHMM(http://wwwcbsdtudk/services/TMHMM/)工具预测PtT1蛋白的跨膜螺旋区;Signal 30(http://wwwcbsdtudk/services/SignalP-30/)A测蛋白质信号肽;利用在线工具TargetP 11(http://wwwcbsdtudk/services/TargetP/)预测PtT1的亚细胞定位情况。使用PORTER对二级结构预测SWISS-MODEL(http://swissmodel expasyorg/interactive/k5MUhF/models/)服务器对三级结构预测;然后使用MEGA 50软件内置的NJ法构建系统进化树。
3结果与分析
31金铁锁PtT1基因的克隆以金铁锁根cDNA为模板进行PCR反应,扩增得到2000bp左右的片段。使用pEASY-T1载体通用引物对单克隆进行菌液PCR检测为阳性克隆后送样测序,结果表明扩增序列与转录组序列基本一致。见图1。
32PtT1基因的生物信息学分析PtT1糖基转移酶cDNA全长1529bp,ORF长1377bp,编码458个氨基酸。通过Blastn比对分析可知与石竹科香石竹同源性最高,为81%。采用ProtParam工具预测PtT1编码的氨基酸序列的蛋白质理化性质,从分析结果中可知PtT1的分子质量为5125KDa,理论等电点为580;在组成糖基转移酶的20种氨基酸中,亮氨酸(Leu)所占的比例最高,达到114%;PtT1的不稳定指数为3719,为稳定蛋白;脂肪指数为9044。采用ProtScale分析PtT1氨基酸序列的疏水性/亲水性,结果显示415左右位置有一个典型的亲水性区域,见图2。
利用TMHMM 20对PtT1蛋白进行跨膜结构预测。推测其不存在跨膜区域,该糖基转移酶编码的蛋白不属于跨膜蛋白。见图3
使用SignalP 30对PtT1蛋白质的信号肽进行预测,由神经网络模型分析可判断该蛋白不存在信号肽。隐马尔夫模型进一步证实了金铁锁PtT1编码的蛋白是非分泌蛋白质,没有信号肽存在。将PtT1编码的蛋白质序列输入在线细胞定位分析工具TargetP 11服务器,分析表明目的蛋白的分泌途径为线粒体型,即定位在线粒体上。
对糖基转移酶PtT1的结构域进行预测,在190位到442位之间存在高度保守的结构功能域―UDPGT,即UDPGT家族成员共有的典型结构域。见图4。
利用PORTER对金铁锁PtT1进行二级结构分析,该蛋白二级结构中α-螺旋(H)占4432%,β-折叠(E)占1245%,无规则卷曲(C)占4323%,该蛋白质的二级结构属于混合型。利用Swiss-Model Workspace对糖基转移酶的蛋白质三维立体结构进行预测。见图5。
将金铁锁PtT1与GenBank数据库中17种植物的糖基转移酶蛋白进行Clustal W比对分析后,利用MEGA 51中的Neighbor-Joining 方法,构建系统进化树。结果表明金铁锁与同科植物香石竹聚为一类,亲缘关系最近;其次与北柴胡、小麦、拟南芥等植物的亲缘关系也比较接近,与蓖麻等植物中的PtT1亲缘关系较远。见图6。
4 讨论
糖基转移酶催基因催化三萜皂苷骨架糖基化的反应,其通过催化生物物体内已活化的糖,连接到不同的受体分子上,对一系列化合物进行激活、抑制或者调节溶解度,从而参与植物体多种调控和代谢途径。目前已发现的催化植物中天然产物糖基化的酶均属于糖基转移酶家族Ⅰ,其作用是将活性糖基从核苷糖(尿嘧啶核苷二磷酸糖)转移到包括次生代谢物在内的多种植物小分子化合物受体上[13]。
目前,仅有少数几个参与三萜皂苷生物合成的糖基转移酶被报道[14-19]。本研究立足于金铁锁转录组测序数据,从金铁锁根中克隆得到一条糖基转移酶基因PtT1,其cDNA全长1529bp,ORF长1377bp,编码458个氨基酸。Blast比对分析可知与同科植物香石竹有较高的同源性,保守结构域分析显示其具有UDPGT家族成员共有的典型结构域,说明所得糖基转移酶蛋白具有较高的结构保守性。通过构建进化树,发现该基因与香石竹、北柴胡、拟南芥等植物的亲缘关系比较接近。为进一步研究金铁锁糖基转移酶在大肠杆菌异源表达,三萜皂苷合成代谢途径及其关键酶表达模式等研究奠定一定的基础。参考文献
[1]Weis M, Lim EK, Bruce NC, et al. Engineering and kinetic characterisation of two glucosyltransferases from Arabidopsis thaliana[J]. Biochimie,2008,90: 830-834
[2] 邢爱佳. 罗汉果葡萄糖基转移酶基因的克隆及原核表达[D]. 南宁:广西大学, 2013.
[3] Naoumkina M A, Modolo L V, Huhman D V, et al. Genomic and coexpression analyses predict multiple genes involved in triterpenes aponin biosynthesis in Medicagotruncatula[J]. The Plant Cell Online, 2010, 22(3): 85-86
[4] Seki H, Ohyama K, Sawai S, et al. Licorice β-amyrin 11-oxidase, a cytochrome P450 with a key role in the biosynthesis of the triterpene sweetener glycyrrhizin[J]. Proceedings of the National Academy of Sciences, 2008, 105(37): 1420
[5] 兰茂.滇南本草[M].昆明:云南人民出版社,1976:86.
[6] 朱常成,徐土奎,钱子刚.金铁锁的地理分布及分布区的初步分析[J]. 中国现代应用药学杂志,2007,24(1): 28-31.
[7] 田均勉.中药金铁锁的系统化学成分研究[D].上海:第二军医大学,2011.
[8] 文波.中药金铁锁地上部分的化学成分与生物活性研究[D].福州:福建中医药大学,2014.
[9] 王学勇,张元,许建阳,等.金铁锁总皂苷镇痛作用及其对佐剂性关节炎大鼠c-fos基因的表达的影响[J].中实验方剂学杂志,2010,16(3):94-96.
[10]Zhang J, Cao W, Tian J, et al. Evaluation of novel saponins from Psammosilene tunicoides and their analogs as immunomodulators [J].Int Immunopharmacol,2012,14(1):21.
[11] 戴住波,钱子刚,胡运乾,等.金铁锁鲨烯合酶cDNA的克隆和功能鉴定[J].药学学报,2008,43(12) : 1245-1250.
[12] 刘佳佳.金铁锁β-香树素合酶cDNA的克隆、原核表达和功能鉴定[D].昆明:云南中医学院,2012.
[13] 许晓双,张福生,秦雪梅. 三萜皂苷生物合成途径及关键酶的研究进展[J]. 世界科学技术-中医药现代化,2014,16(11):2440-2448.
[14] Dai L, Liu C, Zhu Y, et al. Functional Characterization of Cucurbitadienol Synthase and Triterpene Glycosyltransferase Involved in Biosynthesis of Mogrosides from Siraitia grosvenorii[J]. Plant And Cell Physiology,2015,56(6):1172-1182.
[15] Achnine L, Huhman DV, Farag MA, et a1.Genomics-based selection and function alcharacterization of triterpene glycosyltrans-ferases from the model legume Medicago truncatula[J].Plant J,2005(41):875.
[16]Naoumkina M A, Modolo L V, Huhman D V, et a1.Genomic and coexpression analyses predict multiple genes involved in triterpene saponin biosynthesis in Medicago truncatula[J].Plant Cell,2010(22):850.
[17]Meesapyodsuk D, Balsevich J, Reed D W, et al.Saponin Biosynthesis in Saponaria vaccaria. cDNAs Encoding beta-Amyrin Synthase and a Triterpene Carboxylic Acid Glucosylansferase[J]. Plant Physiology,2006,143(2):959-969.
关键词:河八王;NpD53基因;克隆;序列分析;RACE
0引言
[研究意义]河八王[Narengaporphyrocoma(Hance)Bor]是一个甘蔗野生种,具有分蘖力强、耐贫瘠、耐旱等优良性状(李杨瑞,2010)。甘蔗产量受单位面积有效茎数影响,而有效茎数由甘蔗的有效分蘖决定(李杨瑞,2010)。可见,分蘖是农作物茎数和穗数的重要性状因子,对作物产量有重要影响(吕爱丽等,2016),而DWARF53(D53)基因编码的D53蛋白与独脚金内酯信号分子D14蛋白和D3蛋白互作形成D53-D14-SCFm蛋白复合体,D53蛋白作为独脚金内酯信号途径的抑制子,参与植物分蘖(分枝)等生长发育过程(Zhouetal.,2013)。因此,研究河八王分蘖基因D53及其分子调控机理,利用转基因或杂交等技术进行甘蔗遗传改良对提高甘蔗产量具有重要意义。[前人研究进展]独脚金内酯是一种新型植物激素,属萜类内酯,可抑制植物分枝生长、促进侧根形成和诱导根毛伸长,从而调节植物的生长发育(Gomez-Roldanetal.,2008;吴转娣等,2017),D14蛋白、F-box蛋白和D53蛋白等参与其信号转导(陈虞超等,2015)。已有研究发现,水稻的3种DWARF蛋白(D27、D17和D10)将反式B-胡萝卜素转变成独脚金内酯的前体己内酯(Alderetal.,2012),其他2种DWARF蛋白(D14和D3)在独脚金内酯的感知和转导中起重要作用(Ishikawetal.,2005;Ariteetal.,2009)。其中D14蛋白属于α/β-水解酶折叠家族,是独脚金内酯的受体(Aldereta1.,2012),D3蛋白是一个富集亮氨酸重复序列的F-box蛋白,参与独脚金内酯信号的接收(Zhaoetal.,2013)。D53蛋白是连接独脚金内酯信号接收和应答的重要抑制因子,当D53被降解,独脚金内酯抑制植物分蘖(分枝);当D53未被降解,则独脚金内酯受到抑制,促使植物多分蘖(分枝)(Jiangetal.,2013)。D53基因是水稻的显性基因之一。Wei等(2006)构建了水稻显性矮秆突变体dwarf(d53),通过图谱定位发现D53基因定位于11号染色体的断臂上。Jiang等(2013)克隆获得水稻的D53基因全长。[本研究切入点]目前,未见有关甘蔗野生种河八王分蘖基因的研究报道。[拟解决的关键问题]利用RACE(cDNA末端快增)技术克隆河八王D53基因(NpD53)全长,并进行生物信息学分析,为甘蔗野生种分蘖的分子调控机理研究提供理论参考。
1材料与方法
1.1试验材料
供试材料为河八王,保育于广西农业科学院甘蔗研究所。RNAprepPure植物总RNA提取试剂盒、DNaseIRecombinant和SMARTerRACE5'/3’Kit购白天根生化科技(北京)有限公司。其余试剂均为国产分析纯。引物由生工生物工程(上海)股份有限公司合成。
1.2总RNA提取及cDNA合成
剪取约0.1g河八王幼嫩叶片,参照RNAprepPure植物总RNA提取试剂盒说明提取其总RNA,用1%琼脂糖凝胶电泳检测其质量,并参照SMARTerRACE5’/3’Kit说明反转录合成cDNA。
1.3NpD53基因克隆
1.3.1中间序列扩增参考水稻分蘖基因D53(GeneBank登錄号KF709434.1)设计其中问序列的扩增引物(表1),反应体系(25.0uL)配置和扩增程序设置均参照2xESTaqMasterMix产品说明进行。PCR产物经胶回收纯化后连接至pMD19-T克隆载体上,转化DH5a感受态细胞,经菌液PCR验证后,把含目的片段的阳性克隆送至生工生物工程(上海)股份有限公司进行测序。
1.3.2两端序列扩增以NpD53基因的中间序列为基础,设计NpD53基因5’与3’端RACE特异性引物(表1),采用RACE技术克隆NpD53基因的5’与3’末端序列。PCR产物经胶回收纯化后连接至pMD19-T克隆载体上,转化DH5a感受态细胞,经菌液PCR验证后,把含目的片段的阳性克隆送至生工生物工程(上海)股份有限公司进行测序。对测序正确的5’与3’端序列进行拼接,得到NpD53基因cDNA全长序列。
1.4生物信息学分析
利用ORFFinder找出NpD53基因的开放阅读框(ORF)編码区。将获得的NpD53基因cDNA提交至NCBI数据库中进行比对,利用BLASTI具对其编码蛋白(NpD53)进行氨基酸序列比对;基于NpD53蛋白的氨基酸序列与相似性较高的序列,利用MEGA6.0邻接法构建系统进化树,分析河八王与其他物种之间的亲缘关系。
利用ExPASyProteomicsServer在线软件ProtParam预测NpD53蛋白的理化性质;利用ProtScale预测NOD53蛋白的亲/疏水性;利用NCBIBLAST-E具预测NpD53蛋白的结构域;利用SOPMA软件预测NOD53蛋白的二级结构;利用TMHMMServerv.2.0预测NpD53蛋白的跨膜结构;利用在线软件SWISSMODEL构建NpD53蛋白的三维结构模型;利用Wolf-Sport在线软件预测NpD53蛋白的亚细胞定位。
2结果与分析
2.1NpD53基因克隆结果
由图1可知,总RNA的28S和18S条带明亮、清晰、完整,无其他杂质污染,说明提取的河八王幼嫩叶片总RNA质量较好,可用于后续试验。
PCR扩增NpD53基因,其测序结果显示,NpD53基因的中间序列长度760bp,5’端序列长度1497bp,3’端序列长度1233bp,经ContigExpress软件拼接后,其cDNA序列全长为2597bp。
2.2NpD53基因同源性比对及系统进化树分析
将克隆获得的NpD53基因cDNA序列提交至NCBI数据库中进行核苷酸序列比对,结果显示,该序列与高粱(Sorghumbicolor)(XIVl002441614.2)、玉米(ZeamarsL_)(KUl31574.1)和水稻(Orvzasativa)(KF709434.1)的D53基因核苷酸序列的同源性分别为95%、86%和77%,说明本研究克隆获得的基因为河八王分蘖基因D53。利用ORFFinder找到NpD53基因的ORF编码区(238-2364bp),长度为2037bp,编码678个氨基酸,其中5’非编码区长度为237bp,3’非编码区长度为233bp(图2)。
NpD53基因编码蛋白(NOD53)与高粱(XP002441659.1)、山羊草(Aegilopstauschii)(XP02016-8048.1)、小麦(Triticumaestivum)(ARB18226.1)和海枣(Phoenixdactylifera)(XP008805019.1)D53蛋白的氨基酸序列同源性分别为91%、63%、59%和39%。利用MEGA6.0进行氨基酸多序列比对,结果(图3)显示,NpD53与禾本科物种具有较高的同源性,其中与高粱的2个D53蛋白同源性最高,分别为91%和85%,而与海枣、油棕(Elaeisguineensis)、芭蕉(Musaacuminatasubsp.malaccensis)等物种的同源性仅30%-40%,说明河八王与海枣、油棕、芭蕉等物种的亲缘关系较远,而与高粱的亲缘关系较近。
2.3NOD53蛋白的理化性质及亲/疏水性预测结果
NpD53蛋白的理化性质及亲/疏水性预测结果显示,该蛋白分子式为C3226H5162N96401034532,分子量为75.02kD,由678个氨基酸组成,其中包含负电荷氨基酸残基86个和正电荷氨基酸残基82个,丝氨酸含量最高,达13.0%;理论等电点(pI)为6.59,为酸性蛋白质;亲水性平均数为-0.506,有较多区段位于0分以下,以亲水性为主(图4),表明其为亲水性蛋白;不稳定系数为54.83,半衰期约为30h,说明其为不稳定蛋白。
2.4NOD53蛋白的功能结构域预测结果
利用NCBIBLAST-E具预测NOD53蛋白的结构域,结果(图5)显示,该蛋白存在P-loopNTPase和ClpBD2-small超家族核心序列,含有4个非特异性位点:ClpA、AAA2、ⅥClpVl和ClDC。与图3中的其他物种均具有相同的保守结构域ClpBD2-small。
2.5NOD53蛋白的二级结构和三维结构分析
NpD53蛋白的二级结构预测结果(表2)显示,该蛋白的二级结构仅有4种卷曲类型,其中无规则卷曲最多,占42.77%,其次是α-螺旋,占35.55%,延伸链和β-转角分别占15.34%和6.34%。NpD53蛋白跨膜结构预测结果显示,该蛋白无跨膜结构域。NpD53蛋白三维结构如图6所示,同源模型为MecA-ClpC复合物(3j3u.1),但同源性较低,仅19.3%。NpD53蛋白的亚细胞定位预测结果显示,该蛋白位于细胞核内,可信度94.1%。
3讨论
独脚金内酯属类胡萝卜素植物激素,Jiang等(2013)、Zhou等(2013)研究发现,在水稻中D53蛋白为独脚金内酯信号转导途径的抑制因子,Liu等(2017)发现D53基因在小麦分蘖和穗数上起一定的调控作用。本研究首次从河八王中克隆得到NpD53基因,可为后续河八王分蘖机制研究打下理论基础。
应用RACE技术可对mRNA末端进行快速扩增,具有快速、稳定和成功率高等优点,是有效获取cDNA全长的有效手段之一(唐克轩等,2002)。本研究采用RACE技术克隆获得河八王NpD53基因,其具有完整的ORF,其编码蛋白NpD53的氨基酸序列与其他物种的D53蛋白具有相同的保守结构域clpBD2-small,与禾本科物种的同源性较高,其中与高梁的2个D53蛋白同源性最高,分别为91%和85%,而与海枣、油棕、芭蕉等物种的相似性仅30%-40%,说明不同物种问的D53蛋白可能有不同的结构和功能。ClpB是HSP100/Clp蛋白家族的一员,与细胞的耐热性紧密相关,可溶解热胁迫下的蛋白聚集体,从而减少热激对细胞产生的损害,其序列具有高度保守特性(Katiyar-Agarwaletal.,2003)。其中胞质型HSPl01/ClpB蛋白是植物抗高温必需的因子,推测HSPl01/ClpB转基因水稻有较高的耐热性(Katiyar-Agarwaletal.,2003;杨金莹等,2006)。由此推测河八王中的ClpB也与植株的自身耐热性有关。
已有研究证实,D53蛋白与I类ClpATP酶类有相似的结构(Zhouetal.,2013),ClpATP酶是细菌中高度保守的调节亚基,是一种分子伴侣,其自身无水解活性,其中I类ClpATP酶类带有2个不同的ATP结合区域(Freesetal.,2007)。本研究河八王NpD53蛋白序列中的非特异性位点ClpA和ClpC属于I类,由此推测NpD53蛋白为一种分子伴侣,与河八王的自身耐热性相关。
4结论
[关键词] 基因芯片;子宫内膜异位症;生物信息学分析;靶基因;microRNA
[中图分类号] R711.710.46 [文献标识码] A [文章编号] 1673-7210(2017)04(a)-0012-05
[Abstract] Objective To analyze and predict the expression of endometriosis (EMs) genes by bioinformatics methods, in order to provide a new basis for revealing the essence of EMs at the gene level and developing new treatment drugs. Methods Download gene dates which were related to EMs in Gene Expression Omnibus(GEO), were mined and analyzed by a series of bioinformatics tools, such as protparam, MotiScan, SignalP 4.0, NetPhos 2.0, TMHMM, GO, KEGG, STRING, BRB-Array Tools. Results 91 EMs related genes and 54 microRNA had been found in this study. These genes mainly involved in the process of cell proliferation regulation, cell apoptosis regulation and chemotaxis. Protein interaction network predicted 19 important EMs-related protein targets. Combined with target gene data mining, 134 EMs-related target genes were found. Conclusion Using bioinformatics method to analyze gene microarray data can acquire inner information of organisms, and provide new diagnostic markers and diagnostic thoughts for the early diagnosis of EMs.
[Key words] Microarray; Endometriosis; Bioinformatics; Target gene; MicroRNA
子m内膜异位症(endometriosis,EMs)是一种常见的慢性妇科疾病,在女性人群中,发病率为10%~15%[1],其临床表现为不孕、痛经、慢性盆腔痛、痛等[2],给年轻的女性带来巨大的痛苦和经济负担。EMs是在子宫腔外部出现经过增殖、出血和再生的子宫内膜样组织,其发病机制尚不清楚[3-4]。由于EMs病因复杂,目前主要治疗手段是手术和激素治疗,但该病的复发率高,达40%~50%[5]。因此,亟需新的有效的EMs治疗方法。
基因调控在EMs的发展中起重要作用[6]。研究EMs患者的基因特征是开发新疗法的有效步骤[7-8],基因芯片数据能够大规模地揭示基因遗传背景。根据基因芯片数据可以发现,免疫内分泌的功能障碍是影响子宫内膜异位的重要因素[9]。生物信息学被应用于整理基因表达、基因功能、基因产物以及细胞功能相关的大量信息,来鉴定发病过程中的关键因子,预测合适的治疗靶标[10]。目前这种方法已被用于改进肝细胞癌[11]、淋巴瘤[12]和口腔癌的诊断[13]。基因芯片技术与生物信息学分析的结合能够为疾病的分子生物学研究提供新的研究视角。
本研究应用基因芯片分析软件BRB-Array Tools对基因芯片公共数据库的EMs相关基因和microRNA进行数据挖掘,并进行microRNA的靶基因预测。用生物信息学的方法对EMs的相关基因进行通路和功能的分析,找出EMs相关蛋白质相互作用的网络调控的关键靶标,研究EMs的发病机制,为进一步在基因水平上揭示EMs的本质和发现药物治疗靶点、开发治疗新药提供新的依据。
1 材料与方法
1.1 材料
从美国国立生物信息技术中心(National Center for Biotechnology Information,NCBI)的公共基因芯片数据库(Gene Expression Omnibus,GEO)[14]下载与EMs相关的基因和microRNA。
1.2 方法
①把EMs相关基因上传到String(Search Tool for the Retrieval of Interacting Genes)数据库在线分析工具(http://)[15-16]可获得EMs相关基因蛋白-蛋白相互作用的网络,筛选节点(Hub)蛋白。
②把EMs相关基因上传到DAVID(Database for Annotation,Visualization,and Integrated Discovery)[17],用功能注释工具(Functional Annotation Tool),研究EMs相关基因参与FOTERM_MF_5以及GOTERM_BP_5基因本体数据库(Gene Ontology,GO)[18]的分子功能和生物过程,分析EMs相关基因参与的PANTHER-PATHWAY和KEGG-PATHWAY数据库中的生物学通路。
③应用PicTar2005[19]、TargetScan 5.1[20]、miRanda V5[21]3种软件预测靶基因,有两种或两种以上的软件同时预测到的结果则认为可靠。
2 结果
2.1 EMs相关基因的筛选
从公共基因芯片数据库(Gene Expression Omnibus,GEO)下载与EMs相关的基因,共得到91个相关基因,结果见表1。
2.2 EMs相关基因的分析
对91个EMs相关基因编码的蛋白进行蛋白-蛋白的相互作用网络分析显示,处于网络节点的蛋白质有19个基因与之对应,分别是EGF、RELA、VEGFA、PCNA、PTEN、PIKCA、MDM2、MMP9、MMP1、NGF、PGR、PTGS2、IL11B、IL6、IL10、CD44、TP53、TNF、FOXO1,f明它们可能在致病中发挥着重要作用。GO富集分析结果显示,EMs相关基因主要涉及细胞增殖、细胞凋亡、细胞代谢、信号转导、趋化作用等反应过程(图1)。生物学通路分析表明,EMs相关基因主要参与细胞因子受体互作、肿瘤通路、造血细胞系、Jak-STAT信号等生物学的通路(图2)。
2.3 microRNA的靶基因预测
在PubMed数据库中检测到54个EMs相关的microRNA,联合靶基因的数据挖掘和预测,共得到134个EMs的相关基因。
3 讨论
EMs给社会和妇女带来了严重的临床上和经济上的负担,因此,需要将研究和资源的效用最大化来提高对疾病的了解,以便发展新的有效的治疗方法。随着近几年生物信息学技术的兴起,基因芯片技术已经成为生物医学研究的基本方法。基因芯片是一种大规模高效率获取生物信息的新型技术,能够检测分析各个组织内的表达基因的差异,随着计算机技术的快速提高和生物数据的急剧增长,生物信息学这一刚刚兴起的学科得到了前所未有的迅速发展[22],尤其是应用生物信息学方法发现新基因和基因芯片,利用已知的核酸序列作为探针,与互补的靶核苷酸序列相互杂交,再进行信号的监测,最终完成定量或者定性的分析,在预防和新药开发、辅助诊断疾病方面有广阔的前景。生物信息学是涉及应用物理学、数学、生物学、化学、计算机等交叉学科的一门新兴学科,应用现有的分析软件和公共数据库,可以探索生物分子结构和功能特性,为后续研究提供新的研究思路和方向。EMs的生物学过程复杂,决定了从基因组水平筛选与转移相关表型的功能基因成为EMs治疗研究的重要方向[23]。
本研究发现,EGF、RELA、VEGFA、PCNA、PTEN、PRKCA、MDM2、MMP9、MMP1、NGF、PGR、PTGS2、IL11B、IL6、IL10、CD44、TP53、TNF、FOXO1在EMs相关基因编码蛋白-蛋白的作用网络中起到节点蛋白的作用,推测这些基因对EMs的发病起重要作用。本研究通过GO富集分析和通路分析发现,EMs相关基因主要与细胞增殖调控、细胞凋亡调控、趋化作用有关。
综上所述,本文应用生物信息学的方法对基于基因芯片数据库挖掘的EMs基因及蛋白进行分析,为揭示EMs相关基因及microRNA的结构、功能、蛋白的相互作用提供了重要依据,发现了关键基因在EMs发生发展过程中可能起到重要的作用,为日后进一步研究EMs的发病机制、发现药物治疗的靶点,及为临床治疗和预防提供了新的切入点。
[参考文献]
[1] Sourial S,Tempest N,Hapangama DK. Theories on the path?鄄ogenesis of Endometriosis [J]. International Journal of Reproductive Medicine,2014,2014:9.
[2] Giudice LC. Clinical pracice. Endometriosis [J]. N Engl J Med,2010,362(25):2389-2398.
[3] Mathew D,Drury JA,Valentijn AJ,et al. In silico,in vitro and in vivo analysis identifies a potential role for steroid hormone regulation of FOXD3 in endometriosis-associated genes [J]. Human Reproduction,2016,31(2):345-354.
[4] Aznaurova YB. Molecular aspects of development and regul?鄄ation of endometriosis [J]. Reproductive Biology and Endo?鄄crinology,2014,12(1):50.
[5] Guo SW. Recurrence of endometriosis and its control [J]. Human Reproduction Update,2009,15(4):441.
[6] Kobayashi H,Imanaka S,Nakamura H,et al. Understanding the role of epigenomic,genomic and genetic alterations in the development of endometriosis(review)[J].Molecular Medi?鄄cine Reports,2014,9(5):1483-1505.
[7] Burney RO,Talbi S,Hamilton AE,et al. Gene expression analysis of endometrium reveals progesterone resistance and candidate susceptibility genes in women with endome?鄄triosis [J]. Endocrinology,2007,148(8):3814-3826.
[8] Baranov VS,Ivaschenko TE,Liehr T,et al. Systems genetics view of endometriosis:a common complex disorder [J]. Euro?鄄pean Journal of Obstetrics & Gynecology & Reproductive Biology,2015,185:59-65.
[9] Khan MA. Genome-wide expressions in autologous euto?鄄pic and ectopic endometrium of fertile women with endom?鄄etriosis [J]. Reproductive Biology and Endocrinology,2012, 10(1):84.
[10] Ping S,Ma C,Liu P,et al. Molecular mechanisms underl?鄄ying endometriosis pathogenesis revealed by bioinformatics analysis of microarray data [J]. Archives of Gynecology and Obstetrics,2016,293(4):1-8.
[11] Zhang Y,Wang S,Dong L,et al. A Systems Biology-Based Classifier for Hepatocellular Carcinoma Diagnosis [J]. Plos One,2011,6(7):e22426.
[12] O'Neill MC,Li S. Neural network analysis of lymphoma microarray data:prognosis and diagnosis near-perfect [J]. BMC Bioinformatics,2003,4(1):13.
[13] Singaraju S,Prasad H,Singaraju M. Evolution of dental informatics as a major research tool in oral pathology [J]. Journal of Oral & Maxillofacial Pathology,2012,16(1):83-87.
[14] Barrett T,Wilhite SE,Ledoux P,et al. NCBI GEO:Archive for functional genomics data sets―update [J]. Nucleic Acids Res,2013,41(Database issue):D991-D995.
[15] Szklarczyk D,Franceschini A,Kuhn M,et al. The STRING database in 2011:functional interaction networks of prot?鄄eins,globally integrated and scored [J]. Nucleic Acids Res,2011,39(Database issue):D561-D568.
[16] Franceschini A,Szklarczyk D,Frankild S,et al. STRING v9.1:protein-protein interaction networks,with increased coverage and integration [J]. Nucleic Acids Res,2013,41(Database issue):D808-D815.
[17] Huang DW,Sherman BT,Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinf?鄄ormatics resources [J]. Nature Protocol,2009,4(1):44-57.
[18] Ashburner M,Ball CA,Blake JA,et al. Gene ontology:tool for the unification of biology. The Gene Ontology Consortium [J]. Nat Genet,2000,25(1):25-29.
[19] Kerk A,Grun D,Poy MN,et al. Combinatorial microRNA target predictions [J]. Nat Genet,2005,37(5):495-500.
[20] Lewis BP,Burge CB,Bartel DP. Conserved seed pairing,often flanked by adenosines,indicates that thousands of human genes are microRNA targets [J]. Cell,2005,120(1):15-20.
[21] Griffiths-Jones S,Saini HK,Dongen SV,et al. Tools for microRNA genomics [J]. Nucleic Acids Research,2008, 36(Database issue):D154-D158.
[22] GuC,ShenT. cDNA microarray and bioinformatic analysis for the identification of key genes in Alzheimer's disease [J]. International Journal of Molecular Medicine,2014,33(2):457-461.
关键词:生物信息学;双语教学;改革及实践
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)46-0125-02
生物信息学是生物学、计算机科学及应用数学等学科相互交叉而形成的一门新兴学科。它以DNA和蛋白质为研究对象,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示实验数据所蕴含的生物学意义的目的[1]。基于“加强基础、拓宽专业、强化能力、提高素质”的人才培养指导思想,河南科技大学生物科学及生物技术本科专业开设了《生物信息学》课程,以便让学生理解并掌握生物信息学领域的基本概念和基本理论,具备初步的生物信息学分析技能和实践操作能力,从而适应今后工作和学习的需要。
生物信息学的研究对象为各种分子生物学数据,是在全世界各个实验室中产生的,然后再提交到相应的数据库中[2]。目前,这些大型分子生物学数据库在存储、检索和可视化上,都是英文界面;《生物信息学》课程中讲授的生物信息学软件也均以英文为界面[3]。由于生物信息学学科的前沿性和交叉性,使得《生物信息学》课程的教学有其特殊性,其中一点就是适宜于开展较高水平的双语教学。通过双语教学,可使学生尽快掌握以英文为界面的生物信息学网络资源及相关生物信息学分析软件的使用,提高本科生生物信息学基本的分析技能,继而培养其创新能力。根据《生物信息学》的课程特点,我们开展了双语教学的改革和实践,获得了较好的教学效果。
一、激发学生学习兴趣
《生物信息学》课程涉及的知识点较多,在线生物信息学分析平台均为英文界面,多数学生因而存在一定的畏难情绪。因此,在授课的过程中,首先引导学生加强生物信息学基本分析方法及专业英语的学习。学生通过浏览英文网站,英文阅读能力得到了很大提高;同时也开拓了视野,提升了知识面。总之,通过激发学生的学习兴趣,帮助学生逐步建立起学习的兴趣和自信心,为开展《生物信息学》双语教学打下了坚实的基础。
二、选用英文原版教材
目前,适宜于本科生《生物信息学》双语教学的英文原版教材较为欠缺[4]。其原因有两点:一方面,部分《生物信息学》原版英文教材非常昂贵,因成本原因不适宜于本科生选用;另一方面,通俗易懂、适合入门的《生物信息学》英文教材又少之又少。项目组最终筛选到了一本适宜于我校生物科学和生物技术专业本科生选用的英文原版教材《Bioinformatics For Dummies》,该教材浅显易懂,实践操作性强,适宜于生物信息学初学者选用;另一方面,打印或复印该教材的成本较低,学生易于接受。
三、更新优化教学内容
基于英文原版教材《Bioinformatics For Dummies》,适当更新并优化了教学内容,重点传授了应用性较强的生物信息学实践分析技能。如核酸及蛋白序列数据库的查询、核酸及蛋白序列的相似性搜索、序列比对、分子系统进化树构建、蛋白物理特性及3D结构的预测等分析技能。另外还讲授了离线单机版生物信息学软件如DNAMAN 6.0、Primer Premier 5.0、MEGA 5.0的使用方法。
四、适当讲解理论算法
在注重传授生物信息学实践分析技能的同时,适当讲解生物信息学理论算法。由于生物信息学涉及的算法多数都较为枯燥,在授课过程中侧重于分析方法的讲解和应用。如在讲授Needleman-Wunsch全局比对和Smith-Waterman局部比对及分子系统发育树构建UPGMA(Unweighted pair group method with arithmetic mean,非加权算术平均组队法)等算法时,在多媒体教学的基础上,结合互动式“提问”及“板书”等方法辅助学生理解算法的基本原理及分析方法;同时布置课后计算题作业,要求学生独立完成后上交,从而促进学生巩固基本理论和基本知识[5]。
五、采用双语多媒体授课
为了更好地执行《生物信息学》课程的双语教学任务,我们首先制定了《生物信息学》课程双语教学计划。即选用英文教材,制作英文PPT教学课件,采用中英文相结合的授课方式。随着学生生物信息学分析能力及专业英语水平的不断提高,逐步在授课过程中由少到多地加大英文授课的比例。项目组已于2014-2015学年第2学期成功应用英汉双语完成了《生物信息学》课程的双语教学任务,教学效果良好。
六、实时演示在线分析过程
我校基于网络安全的考虑,在教室内仅能登陆校园网而不能登陆外网。在以往的《生物信息学》教学过程中,只能采用网页抓图的静态教学方式,造成学生对生物信息学分析方法的体验不够强烈。为了达到更好的教学效果,项目组购置了能够接收无线网络信号的设备,在教室内可实时在线进行生物信息学分析,在讲解数据库查询、BLAST分析、Bankit序列提交、蛋白质结构域分析、蛋白质物理特性及3D结构预测等内容时,学生得到了更加直观的实践体验,加深了对生物信息学分析方法的印象,从而更加容易掌握这些实践操作。
七、网络教学资源建设
由于受学时的限制,《生物信息学》课堂教学的内容非常有限。为了让学生更好地利用生物信息学丰富的网络资源,我们基于学校开发的网络教学综合平台,构建了《生物信息学》课程网络平台。平台不仅提供双语多媒体课件、教学视频、作业及相关要求等教学资料;还提供了Primer Premier、DNASTAR、DNAMAN、MEGA、BioEdit软件安装程序和使用手册、生物信息学英文文献及常用的在线生物信息学分析工具的链接等内容。
八、科研与教学相长
在生物信息学课程的双语教学过程中,我们坚持教学和科研互动,实现科研与教学相长。一方面,主讲教师将科研中积累到的涉及到生物信息学的研究成果应用于《生物信息学》教学过程中,丰富了教学内容。如在讲授Bankit在线序列提交序列时,我们以提交至国际核酸序列数据库GenBank的芍药(Paeonia lactiflora)乙烯受体ETR1(JX406435)、ETR2(KP265307)、ERS1(KP265307)、EIN4(KP265308)基因序列为例;在讲授基因外显子和内含子结构预测时,以芍药ACO(KJ719260)和ACS(KP265309)基因组DNA序列为例;在讲授Primer Premier软件时,以芍药ACO基因为例,分别设计用于半定量RT-PCR、CDS扩增及原核表达载体构建所需的PCR引物。通过把科研思路带入教学中,从而有效培养了学生的科研能力及创新能力。另一方面,教学实践也有利于教师全面了解生物信息学和相关学科的最新进展,不断为科研提供新思路。
九、考试方式改革
《生物信息学》课程教学的目的是提高学生利用信息技术解决生物学问题的能力。因此,考试主要考查学生综合利用所学知识分析问题和解决问题的能力。项目组对考试方式进行了改革,改闭卷考试为大作业。要求学生一人一题,综合应用所学的生物信息学分析技能对所研究的核酸及其编码的蛋白序列进行序列查询、序列同源性搜索,PCR引物的设计,分子系统进化树的构建,蛋白的物理性质及3D结构预测等分析,占考核成绩的70%。采用这种考试方式,一方面促使学生在学习过程中不必花大量工夫去死记硬背,而把重点放在了基本理论、基本知识的巩固及实践操作技能的提高上,有效地提高了学生的实践操作能力和创新能力;另一方面,也促使教师在教学过程中,注重从能力培养的角度进行教学课堂设计,提升教学质量和水平。
参考文献:
[1]贺林.解码生命――人类基因组计划和后基因组计划[M].北京:科学出版社,2000
[2]周到,黄敏.生物信息学双语教学探讨[J].科教文汇旬刊,2013,(231):48-49.
[3]戴凌燕,姜述君,高亚梅.《生物信息学》课程教学方法探索与实践[J].生物信息学,2009,7(4):311-313.
一、整合生物信息学的研究领域
尽管目前一般意义上的生物信息学还局限在分子生物学层次,但广义上的生物信息学是可以研究生物学的任何方面的。生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本研究规律的深入,生命科学正处在用统一的理论框架和先进的实验方法来探讨数据间的复杂关系,向定量生命科学发展的重要阶段。采用物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合研究,在分子水平上揭示生物信息及其传递的机理与过程,描述和解释生命活动规律,已成生命科学中的前沿科学问题(摘自:国家“十一五”生命科学发展规划),为整合生物信息学的发展提供了数据资源和技术支撑。
当前,由各种Omics组学技术,如基因组学(DNA测序),转录组学(基因表达系列分析、基因芯片),蛋白质组学(质谱、二维凝胶电泳、蛋白质芯片、X光衍射、核磁共振),代谢组学(核磁共振、X光衍射、毛细管电泳)等技术,积累了大量的实验数据。约有800多个公共数据库系统和许多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依赖于计算机科学的方法和概念,最终由生物学家来系统解决具体的生物问题。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便承担了这一任务。
图1简单描述了生物信息学、系统生物学与信息学、生物学以及基因组计划各个研究领域的相关性。可以看出基因组计划将生物学与信息学前所未有地结合到了一起,而生物信息学的兴起是与人类基因组的测序计划分不开的,生物信息学自始至终提供了所需的技术与方法,系统生物学强调了生物信息学的生物反应模型和机理研究,也是多学科高度交叉,促使理论生物学、生物信息学、计算生物学与生物学走得更近,也使我们研究基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的研究领域,它包括了基因组计划的序列、结构、功能、应用的整合,也涵盖了生物信息学、系统生物学技术与方法的有机整合。
整合生物信息学的最大特点就是整合,不仅整合了生物信息学的研究方法和技术,也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学,以及工程学等各学科。其生物数据整合从微观到宏观,应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行初步的介绍和探讨。
二、生物数据挖掘与整合
生物系统的不同性质的组分数据,从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自实验室(湿数据)和公共数据资源(干数据)。但这些数据存在很多不利于处理分析的因素,如数据的类型差异,数据库中存在大量数据冗余以及数据错误;存储信息的数据结构也存在很大的差异,包括文本文件、关系数据库、面向对象数据库等;缺乏统一的数据描述标准,信息查询方面大相径庭;许多数据信息是描述性的信息,而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获取正确数据模式和关系是数据挖掘与整合的主要任务。
数据挖掘是知识发现的一个过程,其他各个环节,如数据库的选择和取样,数据的预处理和去冗余,错误和冲突,数据形式的转换,挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式,即模式识别。如DNA序列的特征核苷碱基,蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说,模式识别可以被看作是根据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是:特征选择,度量,处理,特征提取,分类和标识。现有的数据挖掘技术常用的有:聚类、概念描述、连接分析、关联分析、偏差检测和预测模型等。生物信息学中用得比较多的数据挖掘的技术方法有:机器学习,文本挖掘,网络挖掘等。
机器学习通常用于数据挖掘中有关模式匹配和模式发现。机器学习包含了一系列用于统计、生物模拟、适应控制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序,遗传算法,神经网络,统计方法,贝叶斯方法,决策树和隐马尔可夫模型等。值得一提的是,大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法,所不同的是算法的实现和对性能的优化。当然也有一些人采用的是自己研发的未公开的算法,效果可能也不错。
大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物学数据更是以非结构化的形式被记载在各种文本中,其中大量文献以电子出版物形式存在,如PubMed Central中收集了大量的生物医学文献摘要。
文本挖掘就是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。其任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,以及利用文本挖掘技术提高数据分析的效率。近年来,文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取知识,并非易事。目前较为有效的方法是利用自然语言处理技术NLP,该技术包括一系列计算方法,从简单的关键词提取到语义学分析。最简单的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。复杂些的NLP系统则利用统计方法来识别不仅仅相关的关键词,以及它们在文本中的分布情况,从而可以进行上下文的推断。其结果是获得相关文档簇,可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的,主要是通过分析句子中的字、词和句段及其相关性来断定其含义。
生物信息学离不开Internet网络,大量的生物学数据都储存到了网络的各个角落。网络挖掘指使用数据挖掘技术在网络数据中发现潜在的、有用的模式或信息。网络挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。根据对网络数据的感兴趣程度不同,网络挖掘一般还可以分为三类:网络内容挖掘、网络结构挖掘、网络用法挖掘。网络内容挖掘指从网络内容/数据/文档中发现有用信息,网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接,即对网络文档的结构进行挖掘,发现他们之间连接情况的有用信息(文档之间的包含、引用或者从属关系)。在网络结构挖掘领域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。网络用法挖掘通过挖掘相关的网络日志记录,来发现用户访问网络页面的模式,通过分析日志记录中的规律。通常来讲,经典的数据挖掘算法都可以直接用到网络用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。
网络数据挖掘比单个数据仓库的挖掘要复杂得多,是一项复杂的技术,一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多个异质数据库成为可能,从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式,目前主要的生物信息学数据库都已经提供了支持XML的技术,面向网络的数据挖掘将会变得非常轻松。如使用XQuery 标准查询工具,完全可以将 Internet看作是一个大型的分布式XML数据库进行数据浏览获取、结构化操作等。
此外,数据挖掘还要考虑到的问题有:实时数据挖掘、人为因素的参与、硬件设施的支持、数据库的误差问题等。
一般的数据(库)整合的方法有:联合数据库系统(如ISYS和DiscoveryLink), 多数据库系统(如TAMBIS)和数据仓库(如SRS和Entrez)。这些方法因为在整合的程度,实体化,查询语言,应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时,指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是提供长期的实验数据存储和简便的数据访问,重在数据管理,而系统生物学的数据库则同时对这些实验数据进行分析,提供预测信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证(如本体学Ontology的功能对照)、多种挖掘技术、高度智能化等。
三、生命科学与生物信息学技术的整合
生物信息学的研究当前还主要集中在分子水平,如基因组学/蛋白质组学的分析,在亚细胞、细胞、生物组织、器官、生物体及生态上的研究才刚刚开始。从事这些新领域的研究,理解从基因型到表型的生命机理,整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来研究生命现象。另外,由其发展出的新方法、新技术,其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。
目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等实验技术,可以从多方面,多角度来分析研究某一生命现象,从而针对单一的实验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析,都有了大量的生物信息学技术,如序列分析、motif寻找、基因预测、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预测和分子模拟、比较基因组学研究、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法,通过整合生物数据,整合信息技术来推动生命科学干实验室与湿实验室的组合研究。其实践应用涉及到生物数据库的整合、功能基因的发现、单核苷酸多态性/单体型的了解、代谢疾病的机理研究、药物设计与对接、软件工具以及其他应用。
在整合过程中,还应该注意以下几方面内容:整合数据和文本数据挖掘方法,数据仓库的设计管理,生物数据库的错误与矛盾,生物本体学及其质量控制,整合模型和模拟框架,生物技术的计算设施,生物信息学技术流程优化管理,以及工程应用所涉及的范围。
四、学科、人才的整合
整合生物信息学也是学科、教育、人才的整合。对于综合性高等院校,计算机科学/信息学、生物学等学科为生物信息学的发展提供了学科基础和保障。如何充分利用高校雄厚的学科资源,合理搭建生物信息学专业结构,培养一流的生物信息学人才,是我们的任务和目标。
计算机科学/信息学是利用传统的计算机科学,数学,物理学等计算、数学方法,如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理,模拟预测等。生物信息学的快速发展给计算机科学也带来了巨大的挑战和机遇,如高通量的数据处理、储存、检索、查询,高效率的算法研究,人工智能的全新应用,复杂系统的有效模拟和预测。整合生物信息学的课程设计可以提供以下课程:Windows/Unix/Linux操作系统、C++/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘,机器学习、可视化技术、软件工程、计算机与网络安全、计算机硬件、嵌入式系统、控制论、计算智能,微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。
生物学是研究生命现象、过程及其规律的科学,主要包括植物学等十几个一级分支学科。整合生物信息学的课程设计可以提供以下课程:普通生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、保护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。
作为独立学科的生物信息学,其基本的新算法,新技术,新模型,新应用的研究是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与知识发现、计算生物学、药物设计、生物网络分析等。另外,整合生物信息学的工程应用,也需要了解以下学科,如生物工程、生物技术、医学影像、信号处理、生化反应控制、生物医学工程、数学模型、试验设计、农业系统与生产等。
此外,整合生物信息学的人才培养具有很大的国际竞争压力,培养优秀的专业人才,必须使其具备优良的生物信息科学素养,具有国际视野,知识能力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向,整合学科优势和强化师资力量,促进国际交流。
五、总结及展望
二十一世纪是生命科学的世纪,也是生物信息学快速不断整合发展的时代,整合生物学的研究和应用将对人类正确认识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的研究,整合生物信息学提供了从基因序列,蛋白结构到代谢功能各方面的生物数据,也提供了从序列分析,蛋白质拓扑到系统生物学建模等方面的信息技术,从多层次、多水平、多途径进行科学研究。
整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的研究。它依赖于生物学,计算机学,生物信息学/系统生物学的研究成果(包括新数据、新理论、新技术和新方法等),但同时也给这些学科提供了更广阔的研究和应用空间,并推动整个人类科学的进程。
我国的生物信息学教育在近几年已经有了长足的进步和发展。未来整合生物信息学人才的培养还需要加强各学科有效交叉,尤其是计算机科学,要更紧密地与生命科学结合起来,共同发展,让我们的生命科学、计算机科学和生物信息学的教育和科研走得更高更前沿。
作者简介:
关键词:生物信息学;生物芯片;药物开发;疾病检测
Abstract: Bioinformatics was emerged in the 1980s,which is a new cross- discipline and then was applicated in the wide range of areas. Bioinformatics in biochips, drug development, energy fields, crop genetic analysis, disease detection are introduced in the context . Bioinformatics focuses on the collection, collation and services of biological data to discover laws guiding research,which is an indispensable tool for bioinformatics research.
Keywords: Bioinformatics;Biochip;Drug development;Disease detection
现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互参透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息的科学[1]。
1.生物芯片
生物芯片(Biochip)是指通过微电子、微加工技术在芯片表面构建的微型生物化学分析系统,以实现对细胞、DNA、蛋白质、组织、糖类及其他生物组分进行快速、敏感、高效的处理和分析
基因芯片是目前最重要的生物芯片。
基因微阵列是通过将核苷酸或DNA作为探针,紧密地排列在硅片等固相支持物上,然后将经过某种标记后的样品与微点阵杂交进行检测。根据杂交信息可以确定靶DNA的表达情况以及突变和多态性存在与否。芯片技术的突出特点是高度并行化、多样化、微型化和自动化等,因而被广泛用于测序、转录情况分析、不同基因型细胞的表现分析以及基因诊断、药物设计等领域,成为后基因组时代基因功能分析的制程技术之一 [2]。
2.药物开发
未来的药物研究过程将是基于生物信息知识挖掘的过程。基因组研究对现代与未来药物学和药理学产生了重大影响,尤其为新药筛选、药靶设计和分子药理学研究,以及疑难病的药物设计和途径选择等提供了新的方法论基础。基因组学与药物学的结合已经产生出一门新的分支学科---药物基因组学[3]。制药公司特将充分应用药物基因组学及生物信息学的理论知识和技术手段来设计临床试验并模拟和分析理论与实验数据。这将大大减少新药开发成本,缩短开发周期,为患者、医生和健康医疗机构等诸方面带来选择性治疗的革命。生物信息学也可用于破译遗传密码、筛选免疫基因以及进行新药研发等领域[4]。
3.生物信息学在能源领域的应用
综合运用GenBank等数据库以及各种分析软件将各类数据对比分析,人们已经能够使用酶来降解生物聚合物,通过筛选有益细菌来获取高级的生物催化剂,从而提高使用的产量[5-6]。原核生物采矿技术也得到了迅速发展。同样,不同类型的煤也会发生类似的生物转变,可以转变成甲烷。人们通过生物信息学技术手段开采能源的新方法,可提高能源的采出率和降低开采难度。
通过生物信息学技术改良生物基因,使之转变为生物能源,这是解决能源短缺问题的途径之一。这主要通过生物催化剂的基因转变和代谢工程,利用酶和细菌对生物体的碳氢化合物进行新陈代谢优化,从而用于开发生产生物乙醇等生物能源。
4.农作物基因分析
对重要农作物及经济植物进行基因组分析也需要生物信息学工具。例如,在植物基因组调控和结构研究中,涉及生物信息学的内容有:调控序列数据库;基因表达的调控分析;基因组序列识别;基因结构预测,转录与翻译控制模型;大规模基因数据集分析。
通过数据检索、序列对比、同源性分析、结构预测等工具软件的运用,可将分析数据应用于农作物模式植物研究、种质资源保存、病虫害防治、作物遗传育种等[7]方面,从而为解决模式植物的基因组测序、保护濒危种质资源、控制动植物病虫害和培育优良高产的农作物品种方面提供可靠保障。
5.疾病检测
基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示,根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式[8]。
6.小结与展望
生物信息学的发展将给生命科学研究带来明显的变革,将帮助人类认识生命的起源、进化、遗传和发育的本质,解释人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供合理和有效地方法或途径,同时还将对医药、卫生、食品、农业等产业产生巨大的推动作用,甚至可能引发新的产业革命。21世纪是生命科学的时代,生物信息学为生命科学的发展提供了遍历和强有力的技术支持,推动者生命的迅速发展。
参考文献:
[1] 张明德.生物信息学[M].北京:科学出版社,2004.
[2] 蔡禄.生物信息学教程[M].北京:化学工业出版社,2008.
[3] 姜远英.药物基因组学[M].北京:人民卫生出报社,2011.
[4] 李松,王英.生物信息学在生命科学研究中的应用[J].热带医学杂志,2009,9(10)1:218-1220.
[5] 赵进,骆江涛.能源:未来生物技术的挑战[J].国外油田工程,2008,24(8)5:3-54.
[6] 刘永军,金鹏康.石油集输系统中微生物群落结构研究[J].微生物学杂志,2009,29(3) 2:5-31.
关键词:生物信息学 实践能力 课程体系 培养模式
中图分类号:G4 文献标识码:A 文章编号:1673-9795(2013)07(a)-0047-02
1 生物信息学概述
伴随现代高通量分子生物学技术的快速发展,生物信息学在生物医药领域的应用日益深入[1]。作为数学理论、计算机技术和生物医药研究的整合学科,生物信息学在生物进化、生理功能、疾病治疗、药物开发、农林产业等众多领域均具有重要的应用价值,是研究生命科学、医药科学内在定量规律的重大交叉前沿学科。鉴于生物信息学的重要研究价值和广阔的产业化前景,发展生物信息学专业教育,有计划的建设生物信息学专业课程体系,开展面向实践能力的生物信息学人才培养对促进现代生物医学发展有重要的意义[2]。
2 生物信息学教育发展现状
生物信息学发展起步于20世纪末,在短短的十几年中,生物信息学已经发展成为了横跨多个研究领域的朝阳专业,国内众多高等学府、科研院所相继开设了生物信息本科和研究生专业[3]。但是,在实际的教学和研究过程中,绝大数单位依托于单一的数学、计算机或生物学专业开展,人才培养模式尚处于探索阶段,在培养过程存在生物信学理论基础薄弱、课程体系不健全、课程内容不完善、专业教材匮乏、专业师资队伍缺乏等问题。
哈尔滨医科大学生物信息科学与技术学院是全国领先创办生物信息学专业的单位之一,多年来致力于生物信息学的科学研究和本、硕、博各类人才培养,坚持以学生为本,以培养高素质生物信息学专门人才为目标,深化教学改革,以满足日益发展的生物信息学高端人才需要[4]。为解决生物信息学的教育教学问题,培养高水平的现代生物信息学人才,我们提出立足国内高等生命科学与医学教育,建立面向实践能力培养的生物信息学专业课程体系,以实现高质量培养具有理工科创新思维能力的生物医学人才,为我国生命科学―医药学科教育教学、科学研究和产业化输送大批专门人才。
3 生物信息课程体系建设
3.1 课程建设目标和指导方针
结合生物信息学才培养目标,经过数十名骨干教师十余年生物信息学教学实践及人才培养成果经验反馈,我们适时调整本科生课程及教学内容,逐步建立起面向实践能力培养的生物信息学专业课程体系。奠定了本科生的人文素养与科学素养并重,公共基础理论及专业理论相辅相乘,重视学生理工生物医学全方面素质提高,重点突出学生实践能力的人才培养方针,并在实践中培养了大批具有创新思维能力的优秀高端生物信息学专业人才。
3.2 生物信息学课程体系建设方案
考虑到生物信息学多学科交叉特点和国家大学生培养要求,及学生未来就业深造所必需的基础和专业能力,我们在国内率先开创了生物信息学专业人才培养课程体系,并在医学院校独立开展近40余门数理基础课程和生物信息学专业课程。主要的课程建设情况如下:
(1)公共基础课程(国家限修课):政治理论课程、公共外语、体育。
(2)生物医学基础课程:解剖生理学、发育生物学、生物化学、细胞生物学、分子生物学、生物技术实验、分子药理学等。
(3)计算机基础课程:计算机基础、高级语言程序设计(C++&JAVA)、数据结构、Perl语言程序设计、数据库系统原理、Linux操作系统与程序设计等(上述课程均含上机实践)。
(4)数学基础课程:数学分析、高等代数、概率论与数理统计、数理逻辑、组合数学与图论、微分动力学方程、运筹学等(上述课程均含上机实践)。
(5)专业基础课程:信息论基础、生物统计学、生物医学图像处理、模式识别、优化算法、随机过程、生物信息学概论、生物信息数据挖掘、生物信息软件设计与开发、分子生物软件工程、生物信息学数据可视化、专业外语等(上述课程均含实验)。
(6)专业课程:生物芯片技术、结构生物学、分子进化、分子生物网络、基因组信息学、蛋白质组信息学、药物基因组信息学、统计遗传学、计算表观遗传学、计算机辅助药物设计等(上述课程均含实验)。
(7)综合实践课程:课题标书设计、科研论文写作、生物信息学进展等。
我们在实践基础上开创的面向实践能力培养的生物信息学专业课程体系不同于其他院校,具有明显的跨专业交叉性教学计划特色。该课程体系着眼于基础理论与实践应用相结合、素质培养与专业培养相结合、扎实稳妥与创新思维相结合。注重学生在医学、生物学、数学、计算机科学方面的基础性教育,同时,强调了创新型人才培养、高精尖人才培养、特色化人才培养。厚基础、宽口径,使学生在本科阶段不但打好将来从事生物信息学、系统生物学、生物医药等相关领域创新性研究工作基础,更重要的是该专业课程体系与实践密切联系,切合相关研究开发与产业实际,能够培养学生从事原始创新研究与产业开发的能力。
4 生物信息学本科生培养模式建设
4.1 五年制分段培养与多学科教育体系
目前,我们根据生物信息学交叉学科人才培养特点,考虑到基础课程多,实践能力要求高等因素,采取“2+2+1”的五年制本科人才培养模式,包括两年理论基础课程、两年专业课程与一年实践应用课程培养(含科研训练+毕业设计)。此模式在学生就业和用人单位反馈中证实具有显著的人才培养效果。
课程体系建设依托于生物医学综合优势及深厚的数学、计算机科学功底,通过理论教学与实践训练中的知识技能交叉、渗透,培养适应21世纪生命学科与转化医学领域急需的生物信息学复合型人才。在此基础上,从学科的交叉性出发,进一步加强不同类别课程之间的有机融合,加大相关领域知识的整合力度,建立更为紧密、完善,符合生物信息学学科特点的课程体系,将进一步推动学科的发展和系统性教育理论体系的建立。
4.2 面向实践能力培养的本科生教育模式
在本科学生的培养过程中,我们特别重视学生实践能力的培养,通过教研一体化、学业导师制、报告研讨制等先进的教学方法,引导学生早期接触生物信息学应用领域和科学研究,在巩固学习知识的同时,加强对学科的认识和对未来的把握。
“教研一体化”的实践教学模式:面向实践能力培养的课程体系建设,要求教学模式上的改革,使得人才培养模式由注重多数学生基础理论知识培养的大众教育,向注重少数高精尖创新能力培养的精英式教育转变。充分利用骨干教师在生物信息学领域的研究经验,将科学研究成果快速转化成优秀的教学素材,培养学生动手、实践、创新能力,注重培养学生实际产业化的认知水平和实践能力。
本科生学业导师制:本科生进入专业课教学阶段,实行学业导师制。采取学生与一线骨干教师双向选择方式,使每名学生拥有自己的学业指导教师。导师为学生提供思想教育和专业辅导,并通过指导大学生数学建模竞赛、创新创业科研训练、早期科学研究等方法促进学生的学习尽头和对专业的深入认识。
专题报告与研讨制度:本科生毕业设计阶段,强调学生的“主体”学习地位,使学生选择感兴趣的学科方向,在导师指导下进行科研训练与实践。要求学生自主利用网络等各方面资源,获取学科前沿信息,并以专题报告形式展示学习成果,通过提问、研讨、总结,提升自身专业素养及专业技能,独立完成达到核心期刊发表水平的生物信息这科研课题。
5 生物信息学课程体系建设的意义
在全体师生的努力下,经过多年的实践探索,我们对生物信息学课程体系从基础到实践的不同阶段进行分段式、推进式的改革与建设。在政策措施、人员配备、经费匹配等各方面给予鼎力支持。优先保证面向实践能力培养的生物信息学课程体系快速、有效的建设,已经形成国内顶尖的生物信息学本科教育理论和实践团队,并为国家输送着大批高水平生物信息学人才。
面向实践能力培养的生物信息学课程体系建设,一方面能够完善生物医学本科生、研究生的知识结构,提高运用理工科思维和技能解决复杂生命科学问题的综合科研能力,更为有效的实现生命科学攻关和创新研究理论形成;另一方面,生物医药是我国科技研发的薄弱环节,在课程体系建设基础上,培养适用于现代高通量分子生物学技术的创新型生物信息学人才,将为我国的医药物研发提供强有力的推动作用,并有利于创新临床诊断技术开发和个性化医疗的实现,促进科技转化,产生潜在的、不可估量的经济价值。
6 致谢
本文研究内容是在黑龙江省高等教育教学改革专项项目,黑龙江省高教学会重点课题创新型生物医学信息学人才培养模式研究,黑龙省创新创业人才培养项目面向生物信息产业开发的创新型专业人才培养模式研究与实践,哈尔滨医科大学医学教育研究课题面向实践能力培养的生物信息学专业课程整合设计研究资助下完成的,课程体系的建设得到哈尔滨医科大学学校领导的支持,并得到兄弟院校相关领域专家、学者的帮助,在此一并感谢。
参考文献
[1] Ned Wingreen and David Botstein. Back to the Future:Education for Systems-level Biologists[J].Nature Review Molecular Cell Biology,2006,7(11):829-832.
[2] 徐良德,马晔,孙红梅,等.八年制医学教育中开展《生物信息学》教学的实践探讨[J].素质教育,2011,11:33-34.
【摘要】
目的 应用生物信息学分析软件预测分析结核分支杆菌ESAT-6基因及相关蛋白的特性。方法 应用NCBI、Expasy等在线生物信息学网站及DNAstar、Rasmol等软件包分析ESAT-6并进行同源比对;预测二级、三级结构,以及预测主要抗原表位等。结果 结核分支杆菌重组抗原ESAT-6与已发表氨基酸序列同源性为90%。预测该蛋白分子质量约为9885.7Da,PI为4.6,4个抗原表位,其结构域位于56-87位。结论 生物信息学技术在结核分支杆菌ESAT-6重组抗原研究中有一定的理论和应用价值。
【关键词】 生物信息学;结核分支杆菌;ESAT-6;重组抗原
Abstract: Objective To predict the structure and function of recombinant antigen ESAT-6 of Mycobacterium tuberculosis using bioinformatics method. Methods By online analysis at bioinformatics websites such as NCBInibi.nlm.nih.gov/)and Expasy (cn.expasy. org/), and employing software packages such as DNAstar and Rasmol to do multi-sequence homological alignment, secondary structure and tertiary structure,antigenic epitope analysis,etc. Results Compared with the amino acid sequence of ESAT-6 of Mycobacterium tuberculosis published , the homologies was 90%. Analysis of the predicted protein indicated a molecular mass of 9885.7 KDa, PI was 4.6, function sites and four antigen pitope were found. Conclusion Bioinformatic is valuable to the study ESAT-6 of Mycobacterium tuberculosis.
Key words:bioinformatics; mycobacterium tuberculosis;ESAT-6;recombinant protein
生物信息学是在生命科学的研究中, 以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一, 同时也是21 世纪包括临床医学在内的自然科学的核心领域之一。对于感染性疾病中病原体、生物传播媒介、宿主的整体基因信息分析, 抗感染药物的设计, 耐药机制的阐明, 疫苗的研发、个体化的预防策略等均有着日益重要的作用[1]。本文通过生物信息学方法对本室已获得的ESAT- 6( 6KDa Early Secretory Antigenic Target)基因进行进一步预测分析,希望从中尽可能多地搜索和了解该基因的特性及相关蛋白的结构与功能的信息,以便为结核病防治筛选新的诊断抗原分子,为实验研究和应用前景分析提供信息。
1 材料与方法
1.1 材料
1.1.1 ESAT-6 DNA序列
全长基因序列为本实验室从结核分支杆菌标准菌株H37Rv中通过PCR方法获得并亚克隆于pGEM-T中,经BamH I、Xohl I双酶切初步鉴定为阳性克隆菌株送往上海生物工程公司进行核苷酸测序。将克隆基因测序结果输入DNAStar /EditSeq,查找开放阅读框,并对其所编码的氨基酸序列用DNAStar /Protean软件进行分析。
1.1.2 分析软件
DNAStar(V5.01),下载网址:dnastar.com; RasMoL Windows2.7.3,下载网址:Berns tein-plus-so ns. Com/ software/ RasMol-2.7.3/。
1.2 方法
通过NCBI网站(ncbi.nlm.nih.gov/)ORF finder 以及Prot Param(ca.expasy.org/tools/protparam/html)对序列与GenBank中的序列进行在线比对、确定其完整编码序列并预测蛋白质理化性质。通过蛋白质分析专家系统Expasy(ca.expasy.org/)所提供的蛋白质组学和序列在线分析工具:PredictProtein (http:cubic.bioc. columbia. edu/predi ctprotein/)预测氨基酸序列的跨膜区和二级结构;通过SMART(http: //smart. embl-heidelberg.de/smart/show_motifs.pl)预测其结构域;通过Mobyle (mobyle. pasteur.fr/cgi-bin/portal. py?form= psort)进行亚细胞定位;利用SWISS-MODEL(swissmodel.expasy.org/)进行二级三级结构的预测分析,用Rasmol软件包中的三维分子视屏显示。
2 结果
2.1 ESAT-6核苷酸及编码的氨基酸序列及理化特性
ESAT-6基因序列由288个bp组成,编码95个氨基酸,氨基酸序列为:
MTEQQWNFAGIEAAASAIQGNVTSIHSLLDEG
KQSLTKLAAAWGGSGSEAYQGVQQKWDATATELN
NALQNLARTISEAGQAMASTEGNVAGMFA。用DNAStar软件及ExPASy Protemics Server protparam 预测氨基酸序列的分子质量、等电点、稳定性指数等。综合二者结果如下:ESAT-6分子质量单位为9885.7KDa,理论等电点为4.6,碱性氨基酸残基(Arg+Lys)百分比为4.3%,酸性氨基酸残基(Asp+Glu)百分比为9.5%,在哺乳动物、酵母、大肠埃希菌中的半衰期分别为30h(体外)、>20h(体内)和>10h(体内),不稳定指数为53.37,脂溶性指数为69.05,两亲性指数为-0.359。
2.2 ESAT-6氨基酸序列的同源性分析
与NCBI/GenBank上发表的ESAT-6(GenBank序列号:pdb|1WA8|B)氨基酸序列进行比较分析,结果发现同源性为90%(图1)。
2.3 ESAT-6二级结构预测
用DNAStar /Protean分析重组蛋白特性及二级结构见图2(封3)。结果显示ESAT-6的二级结构中含有较多的α-螺旋结构(占78%),β-片层、转角(Turn)、无规则卷曲(Coil)依次为1%、5%和16%。
2.4 ESAT-6的跨膜区域、结构域预测及亚细胞定位
跨膜区域如图3所示(封3),该蛋白位于细胞外,说明为分泌性蛋白。SMART预测结果显示ESAT-6的结构域位于56-87位(QKWDATATELNNALQNLARTISEAGQAMASTE)。存在于细胞核的可能性为26.1%,在线粒体上存在的可能性为39.1%,在胞浆的可能性为34.8%。
2.5 ESAT-6的亲水性及疏水性分析
根据ProtScale软件预测结果(分值越高,其疏水性越强,分值越低,亲水性越强),与跨膜区域的推测结果一致,其疏水性较强。就整体而言,亲水性氨基酸分布在整条链上,为两亲性蛋白,见图4(封3)。
2.6 ESAT-6的抗原表位肽段的预测
用Predicting Antigenic Peptides对ESAT-6抗原表位进行预测,结果表明该蛋白有4个抗原位点,见图5(封3),分别为:10-16(GIEAAAS)、18-30(IQGNVTSIHSLLD)、35-41(SLTKLAA)、50-56(AYQGVQQ)。
2.7 ESAT-6的三维结构预测
Internet/SW ISSMODEL /EXPASY/ swiss2spdbv37 sp5分析模拟ESAT-6重组蛋白质三维结构见图6(封3)。
3 讨论
近年来研究表明,重组蛋白抗原研究是结核病血清学诊断研究的热点。重组蛋白抗原的获得为结核病诊断提供了极大的方便。利用基因工程技术可获得质量更好,纯度更高的蛋白抗原,为结核病血清学诊断方法及蛋白质芯片检测技术的建立奠定了坚实的基础。目前发现的结核分枝杆菌蛋白抗原主要有14KD、16KD、38KD、mtb81和ESAT-6等[2-6]。其中,ESAT-6抗原是早期分泌抗原,是区别结核杆菌和非结核杆菌的最佳候选蛋白抗原,也是目前研究蛋白抗原中较为敏感和特异的一种较为理想的免疫诊断蛋白抗原。
传统生物学认为,蛋白质的序列决定了它的结构,也就决定了它的功能[7]。蛋白质的功能不仅取决于其氨基酸组成顺序决定的一级结构,在很大程度上生物学活性取决于其高级结构。然而通过实验方法获得蛋白质结构不仅成本高而且速度慢。因此,随着近10年来生物学分子序列信息的发展,目前已经可以用理论预测的方法获得大量的结构和功能信息,用生物信息学的方法,通过计算机模拟相关的辅助信息,可以用较低的成本和较快的时间就能获得可靠的结果[8]。DNAStar软件是一个常用的功能强大的基因和蛋白质综合分析软件。
本研究中我们利用生物信息学技术对获得的重组ESAT-6基因所编码蛋白分子在一级结构分析的基础上,又进行了蛋白特性及高级结构的初步分析。根据对ESAT-6蛋白氨基酸序列的一、二级结构分析预测, 我们对此新基因有了一定的了解:该基因开放阅读框长度为288bp,推导编码95个氨基酸,分子量约为9885.7Da,理论等电点为4.6,不稳定指数为53.37,脂溶性指数为69.05,两亲性指数为-0.359。同源性比对发现其基因序列与Genbank公共数据库检索出的ESAT-6基因序列的同源性比较发现,它们的基因几乎完全相同(同源性达99%)。提示该蛋白具有较好的遗传学稳定性,适合作为结核病诊断抗原研究的候选分子。一般来说,由于在有机体内部亲水性残基位于表面,因此蛋白质的亲水部位与蛋白质的抗原位点有密切的关系。而无规则卷曲区域除了决定蛋白质的功能外, 与抗原表位也有关[8]。经分析,该序列中α螺旋和无规则卷曲的比例为94%,提示该蛋白有很好的可塑性,可能与其功能有关。SMART预测结果显示ESAT-6的结构域位于56-87位。亚细胞定位表明该蛋白存在于细胞核的可能性为26.1%,在线粒体上存在的可能性为39.1%,在胞浆的可能性为34.8%。综合本研究的亲水性、疏水性、二级结构等预测结果发现:ESAT-6亲水性和可塑性较大、抗原性指数较高,这为ESAT-6抗原表位的确定提供有力的证据。此外,通过专业分析软件明确了ESAT-6蛋白抗原表位位点有4个,抗原表位的肽段序列的确定,为将来进一步开展的结核病诊断血清价值的研究提供理论依据,并为其他蛋白质抗原表位的分析提供了一种可借鉴的手段。ESAT-6重组蛋白的三级结构模拟能够直接提供更多的蛋白质立体构象信息,这对ESAT-6进一步的研究和应用提供很好的线索及数据平台。
对ESAT-6基因的生物信息学分析为研究该基因的功能和其在诊断、治疗及预防方面的应用价值研究提供了信息。
参考文献
[1]李大江,刘焱斌,刘 凯.生物信息学在未来感染病学教学中的地位和作用[J].华西医学,2006,21 (3):474-476.
[2]Verbon A, Hartskeerl RA,Sehttitema A,et al.The 14,000 moleceular-weight antigen of Mycobacterium tuberculosis is related to the alpha-crystallin family of low-molecular-weight heat shock proteins[J].J Bacteriol,1992,174:1352-1359.
[3]Jacket PS,Bothamley GH,Barta HV,et al.Specificity of antibodes to immunodominant mycobsterial antigens in pulmnonary tuberoulosis[J].J Clin Mierobiol,1988,26:2313-2318.
[4]Andersen AB,Hansen EB.Structure and mapping of antigentic domains of protein antigen b, 38000-molecular-weight of Myeobacterium tuberculosis[J].Infect Immun,1989,57:2481-2488.
[5]Arend SM,Engelhord AC,Groot G,et al.Tuberculin skin testing compared with T-cell responses to Myeobectedum tubercufosis specific and noaspecific antigens for detection of latent infection in persons with recent tuberculosis contact[J].Clin Diagn Lab Immunol ,2001, 8: 1089-1096.
[6]Doherty TM,Demissie A, Olobo J, et al. Immune responses to the Mycobacterium tuberculosis specific antigen ESAT-6 signal subclinical infection arroag contacts of tuberculosis patients[J].J Clin Micmblol, 2002, 40: 704-706.
【关键词】 亚洲带绦虫 烯醇酶 结构 能 生物信息学
Abstract: 【Objective】 To get the messages on the structures and characteristics of enolase from Taenia asiatica(T.a.ENO) by bioinformatics. 【Methods】 A full-length cDNA sequence encoding enolase from cDNA plasmid library of Taenia asiatica was identified by using tools of bioinformatics at webs sites of NCBI. The characteristics of the deduced protein including the physico-chemical characteristics, modification sites after translation, domains, subcelluar location, topological structure, secondary structures, and 3D structure were predicted by employing bioinformatics software package supplied by the website of ExPaSy. 【Results】 The full cDNA sequence encoding T.a.ENO includes a complete open reading frame of 1299bp which encoded a putative protein of 433 amino acids. The coding region is 205 bp ~ 1503 bp. The amino acids sequence has a high identity with enolase from other species in GenBank. The protein has one transmembrane region and stable physico-chemical characteristics. The molecular weight of T.a.ENO is predicted to be 46653.5u. The protein has three hydrophilic regions. The relationship of phylogenesis between T.a.ENO and enolase of other trematodes is close. 【Conclusion】 The cDNA sequence encoding enolase was screened from cDNA library of adult Taenia asiatica by bioinformatics. The structure and characteristics of the gene and protein of T.a.ENO were obtained.
Key words:Taenia asiatica; Enolase; structure; function;bioinformatics
亚洲带绦虫(Taenia asiatica,T.a.)广泛分布于东南亚,包括我国西南地区及台湾, 韩国、泰国、印尼和菲律宾等地[1-3]。人们通过食生或半生含有亚洲带绦虫囊尾蚴的猪、或野猪的内脏, 特别是肝脏而感染,对劳动生产力和畜产品破坏极大。亚洲带绦虫成虫形态与牛带绦虫成虫相似,但其幼虫却与猪带绦虫的囊尾蚴相似。亚洲带绦虫成虫与牛带绦虫成虫的形态极为相似,人们长期以来把亚洲带绦虫误认为是牛带绦虫。上世纪80年代以来人们对其形态学、流行分布、中间宿主及实验动物感染、遗传学进行了研究,但大部分工作仍局限在细胞水平[4]。本课题组构建了亚洲带绦虫成虫的cDNA质粒文库,获得了大量的Unigene,在这些工作的基础上开展了对亚洲带绦虫基因组及蛋白质组学的研究,以期从分子水平寻求3种带绦虫的起源、演化和彼此间的亲缘关系及宿主选择性的形成等问题的答案。本文分析的烯醇酶(enolase, ENO)是进行这方面研究中感兴趣的分子之一。
1 材料与方法
1.1 材 料
亚洲带绦虫成虫全长cDNA质粒文库, 由上海联合基因公司构建。大规模测序得到多个表达序列标签(EST),Washington University BLAST(WU-BLASTX)方法归并EST获得UniGene[5], 由本课题组与该公司合作完成。编码亚洲带绦虫烯醇酶(T.a.ENO)基因的文库质粒编号为HC1-G6。其他寄生虫及其他物种的ENO氨基酸序列源自GenBank(http://www.ncbi.nlm.nih.gov/Genbank/index.html):肝片形吸虫烯醇酶基因(Fasciola hepatica ENO,登录号AAA57450),棘口吸虫烯醇酶基因(Echinostoma caproni ENO,登录号ABI26619),秀丽隐杆线虫烯醇酶基因(Caenorhabditis elegans ENO,登录号CAH10783),布氏锥虫烯醇酶基因(Trypanosoma brucei ENO,登录号EAN77714),人烯醇酶基因(Homo sapiens ENO1,登录号AAY43128;Homo sapiens ENO2,登录号AAH02745;Homo sapiens ENO3 登录号AH17249),褐鼠(Rattus norvegicus ENO 登录号AAH83566), 牛烯醇酶基因(Bos taurus ENO 登录号AAI02989),野猪烯醇酶基因(Sus scrofa ENO 登录号ABC75829)。
1.2 方 法
1.2.1 T.a.ENO基因的识别
通过美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI, http://www.ncbi.nlm.nih.gov/)网站的基本局部比对搜索工具(basic local alignment search tool,BlastX,http://www.ncbi.nlm.nih.gov/BLAST/)程序[6],将文库质粒编号为HC1-G6的插入序列与GenBank中的序列进行比对,分析该基因的翻译序列与其他蛋白质氨基酸序列的一致性、判断其是否为全长基因。利用rpsblast分析其保守功能域。
1.2.2 T.a.ENO核酸和氨基酸序列分析
综合性蛋白核酸分析工具包(vector NTI suite)中的ORF Finder确定其完整的编码序列(complete coding sequence,cds),然后用Translation程序推导并输出氨基酸序列。AlignX对T.a.ENO与GenBank中其他物种的同源蛋白氨基酸序列进行比对分析,构建分子进化树。
1.2.3 T.a.ENO蛋白理化性质及结构分析
通过瑞士生物信息学研究所的蛋白分析专家系统(Expert Protein Analysis Systerm,ExPASy, http://ca.expasy.org/)所提供的蛋白组学和序列分析工具, 对目的基因及其产物进行生物信息学分析。 预测T.a.ENO的理化性质,如分子量、等电点、氨基酸组成、摩尔消光系数、重组产物在细菌、酵母和哺乳动物细胞中的半衰期、在溶液中的稳定性等。预测T.a.ENO一级结构中糖基化、脂酰化、磷酸化、硫酸化等修饰位点、亚细胞定位。预测氨基酸序列的跨膜区和拓扑结构以及二级结构、分子的亲水性、溶液中的分子形态等, 通过二级结构比对和折叠,对蛋白质的空间构象建模。
1.2.4 T.a.ENO的亲水性分析
Pcgene软件分析绘制氨基酸亲水性分布图,确定强亲水性的线性表位位置。
2 结 果
2.1 文库质粒编号为HC1-G6插入序列的Blastx分析
该基因是烯醇酶的同源基因,与GenBank中棘口吸虫(Echinostomatidae caproni)的烯醇酶同源性高达78%。该克隆基因的5'端序列长于棘口吸虫烯醇酶的完整编码序列,所以该基因应该是亚洲带绦虫烯醇酶的全长基因序列,其最大的ORF就是其完整的编码区(图1)。用rpsblast分析发现有完整的烯醇酶的保守结构域(图2)。
2.2 T.a.ENO蛋白质的理化性质
T.a.ENO的相对分子量理论值和等电点分别为46 653.5和6.77。含有5个半胱氨酸,预测这5个半胱氨酸之间形成二硫键的可能性较小,该蛋白在水溶液中280 nm处的摩尔消光系数为33 140 mol·L-1·cm-1;蛋白浓度为1 g/L时,半胱氨酸未形成二硫键时吸光系数(Abs)为 0.708。若其成熟肽N端为蛋氨酸时,在哺乳动物网状红细胞体外表达的半衰期为30 h, 在酵母和大肠埃希菌中表达的半衰期分别大于20 h和10 h。在溶液中的不稳定指数为32.33, 在溶液中性质稳定。疏水指数为89.47, 疏水性较高。
转贴于
2.3 T.a.ENO翻译后修饰、亚细胞定位的预测
用Motif scanning(Motifscan)分析T.a.ENO特定位点结果显示,T.a.ENO含有6个潜在的酪蛋白激酶Ⅱ(CK2)磷酸化位点, 5个潜在的蛋白激酶C(PKC)磷酸化位点,2个酪氨酸激酶磷酸化位点,10个潜在的N-肉豆蔻酰位点, 1个潜在的天冬氨酸糖基化位点。T.a.ENO没有分泌信号肽序列和质体以及线粒体定位序列。
2.4 T.a.ENO的拓扑结构、二级结构和亲水性特征
用Predict protein预测结果如图3所示。Htm预测该蛋白是一个膜蛋白,有1个跨膜区(M),N端位于膜内(i),C端位于膜外(o)。Sec预测α螺旋(H)、β折叠(E)和无规卷曲(空白部分)的比例分别是40.42 ∶ 21.15 ∶ 38.43。
2.5 T.a.ENO的亲水性分析
利用 Pcgene软件包预测T.a.ENO氨基酸的亲水性分布(图4)。推导其线性抗原决定簇的位置分别是:①Ah = 2.03 From 50 to 55:Arg-Asp-Gly-Asp-Lys-Asn;②Ah = 1.73 From 86 to 92: Asp-Gln-Glu-Lys-Ile-Asp-Glu;③Ah = 1.48 From 373 to 380:Arg-Ser-Gly-Glu-Thr-Glu-Asp-Ser(Ah,average hydrophilicity,平均亲水性)。
根据拓扑图,其中①和②序列位于膜内,③序列位于膜外,是另一个高亲水性的线性表位。该序列位于膜外区域,而且③的序列是ENO蛋白质特征指纹序列。
2.6 T.a.ENO的三维结构图和酶关键氨基酸的位置
利用同源建模法服务器(SWISS-MODEL)将T.a.ENO 与蛋白结构数据库中的蛋白质三维结构进行匹配,输回模拟的T.a.ENO三维结构图,文件在综合性蛋白核酸分析工具包中打开该蛋白质结构文件,将构成酶活性中心的关键氨基酸标示在结构图上:ENO的关键氨基酸分别为第211位的谷氨酸(Glu211)、第343位的赖氨酸(Lys343)、和第371位的组氨酸(His371)[7],它们在空间位置上十分靠近,并且 His 371 出现在ENO的蛋白指纹区域[8](图5)。
2.7 T.a.ENO与其他物种ENO的比较和分子进化树的构建
应用vector NTI suite软件邻位相连法(neighbour joining 法)对 9 个物种11个ENO的氨基酸序列构建分子进化树(图6)。结果显示在这9个物种中T.a.ENO与吸虫属的ENO的进化关系最近。这几个物种ENO的关键氨基酸都处在相对保守的区域中。在与人的3个型别的ENO比对中,T.a.ENO与ENO3的同源性高达74.7%,与ENO1、ENO2同源性为74.3%(图6),这与BlastX分析的结果是一致的。
3 讨 论
生物信息学可以通过对已有的核酸和蛋白质序列数据库进行扫描和比对,搜索目标序列特殊的结构特征(如各种亚细胞的定位信号、翻译后的修饰位点、功能域等),对基因的功能进行初步的理论预测,为其功能研究寻找线索。生物信息学对基因的编码区、限制性酶识别位点、编码的蛋白质的理化性质(包括等电点、分子量、半衰期、稳定性、疏水性等)的分析,有助于采取合理的克隆和表达策略,选用适合的表达载体,提高目的蛋白高效的可溶性表达的可能性,获得有活性的重组蛋白[5]。
本文分析亚洲带绦虫烯醇酶基因,在GenBank中有其同源序列,经多个生物信息学分析软件预测,该基因与其他物种的烯醇酶编码基因同源性较高,具有烯醇酶的特征氨基酸序列和保守功能域。基于这个分析结果,作者认为可以在以后的实验中验证其是否具有催化2-磷酸甘油酸与磷酸烯醇式丙酮酸间转化的活性、是否具有烯醇酶的其他已被确定的特点,从而确定其是否为亚洲带绦虫的烯醇酶编码基因。
在进行验证性的工作时,生物信息学分析获得的结果(如:烯醇酶的分子量、等电点、在溶液中的稳定性、在不同系统或细胞中的半衰期等)可以帮助我们更好地进行实验,避免实验的盲目性。
烯醇酶是糖酵解途径中催化2-磷酸甘油酸与磷酸烯醇式丙酮酸之间进行转化的酶,是一个比较保守的蛋白,对它的分析可以提供一些亚洲带绦虫进化的信息。但由于目前GenBank中还没有猪带绦虫、牛带绦虫及其他绦虫的烯醇酶氨基酸序列,所以在本文中仅将T.a.ENO氨基酸序列与可以作为亚洲带绦虫的宿主的人、猪、牛、鼠,以及其他寄生虫的烯醇酶进行了比对、构建了进化树。这个比对结果虽然不能判断T.a.ENO与猪带绦虫、牛带绦虫或其他绦虫的进化关系,但是如果把T.a.ENO作为药物靶点, 或者从其中寻找表位来研制疫苗, 则必需考虑它与宿主烯醇酶氨基酸的同源性,要选取T.a.ENO与宿主有差别、但又比较关键的序列来进行实验研究。
另外,对T.a.ENO拓扑结构的预测显示,T.a.ENO是一个膜蛋白,没有质体及线粒体的定位序列,很多研究发现烯醇酶定位于细菌、真菌、原虫[9]、蠕虫[10]的表面,也可通过免疫定位来确定T.a.ENO是否位于亚洲带绦虫的表膜, 从而进一步研究其在致病及免疫方面的作用。
绦虫生理代谢所需的能量来自糖酵解,虽然烯醇酶不是糖酵解途径的关键酶,但它是一种多功能蛋白,是一个嗜神经因子。它能与细胞骨架蛋白和多聚核苷酸结合、还具有热休克蛋白的功能[11-13]。此外,它还是纤溶酶原及层粘连蛋白的受体[14],在寄生虫侵袭宿主组织过程中发挥作用[9],它在感染和免疫中还作为抗体作用的靶分子[15]。利用生物信息学方法分析得到的结果将有助于全面了解T.a.ENO的功能。
【参考文献】
Fan PC, Lin CY, Kosman ML, et al. Experimental infection of Indonesia Taenia (Somosir strain) in domestic animals [J]. Int J Parasitol, 1989,19(7):809-812.
Fan PC, Chung WC, Lin CY, et al. Experimental infection of Thailand Taenia (Chiengma strain) in domestic animals [J]. Int J Parasitol, 1990, 20(1):121-123.
Fan PC, Lin CY, Chung WC, et al. Experimental infevtion of philippine Taenia in domestic animals [J]. Int J Parasitol, 1992, 22(2):235-238.
王正蓉. 亚洲牛带绦虫分类学研究进展[J].贵阳医学院学报,2001,26(1):43-45.
黄 江,胡旭初,包怀恩,等. 亚洲带绦虫成虫全长cDNA质粒文库的构建及EST测序[J]. 热带医学杂志, 2007,7(2):116-118.
吴忠道,余新炳,徐 劲,等.日本血吸虫(大陆株)成虫基因表达谱的研究[J].中山医科大学学报, 2002,23(6):401-404.
Zhang E, Brewer JM, Minor W, et al. Mechanism of enolase: the crystal structure of asymmetric dimer enolase-2-phospho-D-glycerate/enolase-phosphoenolpy-ruvate at 2.0 A resolution [J]. Biochemistry, 1997, 36(41):12526-12534.
Babitt PC, Hasson MS, Wedekind JE, et al. The enolase superfamily: a general strategy for enzyme-catalyzed abstraction of the a-protons of carboxylic acids [J]. Biochemistry, 1996, 35(51):16401-16489.
Pancholi V. Multifunctional alpha-enolase: its role in diseases [J]. Cell Mol Life Sci, 2001, 58(7):902-920.
Jolodar A, Fischer P, Bergmann S, et al. Molecular cloning of an alpha-enolase from the human filarial parasite Onchocerca volvulus that binds human plasminogen [J]. Biochim Biophys Acta, 2003, 1627(2-3):111-120.
Williams LA, Ding L, Horwitz J, et al. Tau-crystallin from the turtle lens: purification and partial characteri-zation [J]. Exp Eye Res, 1985,40(5):741-749.
Takei N, Kondo J, Nagaike K, et al. Neuronal survival factor from bovine brain is identical to neuron-specific enolase [J]. J Neurochem,1991,57(4):1178-1184.