HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 生物信息学

生物信息学

时间:2023-05-29 18:03:03

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇生物信息学,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

生物信息学

第1篇

关键词:推荐系统;生物信息学

推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。

1推荐系统的工作流程

应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。

(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。

(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。

(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。

(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。

2生物信息学推荐系统的设计

综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。

生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。

本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。

(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。

(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(SingularValueDecomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。

(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。

(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。

3生物信息学推荐系统的实现

生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQLServer2000实现。

数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQLServer2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。

推荐算法完成整个个性化推荐的任务,用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接,在连接之前必须要下载三个与SQLServer连接相关的包,即msutil.jar、msbase.jar和mssqlserver.jar。

(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用DataCon.getcon()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。

(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。

(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。

下面给出方法FCArithmetic的关键代码:

Matrixuser_item=this.User_Item_Arry();//获取用户—项目矩阵

user_item=this.SVD_Calculate(user_item);//调用SVD降维方法

Vectorc_uservector=newVector();//当前用户向量

Vectoro_uservector=newVector();//其他用户向量

Vectorc_user_correlate_vector=newVector();

//当前用户与其他用户之间相似度向量

for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));

//1.获得当前用户向量

for(intk=0;ko_uservector.clear();

for(intl=0;lo_uservector.addElement(user_item.get(k,l));

//2.获得其他用户的向量

//3.计算当前用户与其他用户的相似度

usercorrelativity=this.Correlativity(c_uservector,o_uservector);

c_user_correlate_vector.addElement(usercorrelativity);

}

//4.根据当前用户与其他用户的相似度,计算其邻居

this.FindUserNeighbor(i,c_user_correlate_vector);

}

根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。

4结束语

在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。

优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。

参考文献:

[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.

[2]陈新.生物信息学简介[EB/OL].(2001).166.111.68.168/bioinfo/papers/Chen_Xin.pdf.

[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58-60.

[5]AIRIAS,TAKAHISAA,HIROYAI,etal.Personalizationsystembasedondynamiclearning:InternationalSemanticWebConference[C].Sardinia:[s.n.],2002.

[6]BREESEJS,HECKERMAND,KADIEC.Empericalanalysisofpredictivealgorithmsforcollaborativefiltering:proceedingsoftheFourteenthConferenceonUniversityinArtificialIntelligence[C].Madison:WI,1998:43-52.

[7]SCHAFERJB,KONSTANJ,RIEDLJ.Recommendersystemsine-commerce:proceedingoftheACMConferenceonElectronicCommerce[C].Pittsburgh:PA,1999:158-166.

[8]PRYORMH.Theeffectsofsingularvaluedecompositiononcollaborativefiltering[EB/OL].(1998).cs.dartmouth.edu/reports/TR98-338.pdf.

第2篇

关键词:生物信息学 交叉学科 学生培养

一、生物信息学的产生

生物学是一门古老的学科,在人类历史发展的长河中,人类从未停止过对生命奥秘的探索。人们逐渐认识到,虽然生物种类多种多样,但是它们的最基本分子却是相同的。DNA、RNA和蛋白质等分子构成了生命的基本单位,再由细胞到组织、器官,最后器官系统组成完整的生物体。

传统的生物学研究中,由于受到技术水平的限制,生物学家多采用低通量的生物实验方法,其研究对象通常是一个基因或者几个基因组成的通路。在这种情况下,实验后的简单观察就可以满足研究需要。随着生物研究的不断深入,积累了大量实验数据,人们不禁想到,如何把不同的实验结果整合起来?另一方面,随着生物技术的发展,大量新兴技术出现,产生了海量的数据。例如90年代兴起的基因芯片技术,单张芯片就可以测定成千上万个基因在某一状态下的表达情况。1990年启动的人类基因组计划更为生命科学的研究提供了海量的序列数据。面对如此多的数据,以前依靠生物实验研究单个或几个基因的方法很难再适用,生命科学、统计学、计算机科学和信息科学等若干学科的交叉学科――生物信息学应运而生。生物信息学以计算机、统计、模式识别等方法为手段,以生物数据为研究对象,通过对大量生物数据的储存、处理和分析,提取其中有意义的生物知识[1],从而最终揭示蕴藏在核酸序列和蛋白质序列中的信息,对了解生命活动的基本规律出贡献。

二、生物信息学在生命科学研究中的作用

作为一门新兴的学科,大家对生物信息的作用并不十分明确。很多人认为生物信息学只是为实验科学服务。从广义上讲,这种说法也不无道理,但是生物信息学并不是实验科学的附属品,与生物实验一样,它也是解决生物问题的一种手段。为了解决生物问题,生物学家依靠的是实验台,生物信息学家依靠的是计算机。

在生命科学的发展过程中,以分子生物学的产生为界,可以分为传统生物学和现代生物学。传统生物学和现代生物学取得的成就为生命科学的发展做出了巨大贡献。人类基因组计划启动以来,人们一度认为只要把各种生物基因组的全部碱基排列顺序测定清楚,生命的遗传奥秘就会显露无余,但是真实的情况远不像想象的那样简单。人类的个体发育开始于一个单细胞受精卵,受精卵经过一系列的细胞分裂和分化,产生具有不同形态和功能的细胞,不同细胞之间相互作用构成各种组织和器官。虽然人类基因组中有两万多个基因,但是在单个细胞当中,同时起作用的基因往往是很少的。有些基因只在特定阶段起作用,有些基因只在特定组织起作用。只关心某个基因或蛋白的功能是不够的,因为在不同时空条件下,同一个基因或蛋白的功能可能不同。生物是一个复杂的系统,其表型和功能不仅体现于基因数量和序列的不同,更体现在基因、蛋白以及其他生物分子之间的相互作用之中。因此,把研究对象当成一个整体,系统地分析内部的相互关系尤其重要。但是无论是传统生物学还是现代生物学,都是一门实验学科,生物学的发展中缺乏一种系统思想。生物信息学可以从大量生物数据中提取有意义的生物知识,通过对已有数据的总结,进一步推测生物体的某些性质和变化趋势,生物信息学为大量生物数据的整合提供了可能,与生物实验一样,是生物研究中的一种重要途径。

三、生物信息学学生的培养

生物信息学是一门交叉学科,要求学生具有较好的分子生物学、计算机科学、数学和统计学素养,目前国内只有少数几个学校设立了生物信息学本科专业,大部分的学生都是进入研究生阶段才开始生物信息学的培养。在进入生物信息学专业前,本科阶段可能接受过计算机、统计学、信息学、生物学等某一方面的教育,但要进行生物信息学的研究,大多需要补充其他方面的知识。

生物信息学研究可以分为两类:第一,在深刻理解生物问题的基础上,利用计算技术解决生物问题,第二,为生物学家提供性能更好的方法(算法)。理工科背景学生的生物知识较少,但是对于各种计算方法的原理和使用非常熟悉,对于这类学生的培养,第二类问题比较适合他们入门。在生物信息领域,有很多经典的分类问题。这些问题已经明确了分类目标,并且大都有通用的数据集。但是这类工作也受到了生物学家的质疑,因为大部分工作都是把已有的经典算法用在生物数据上,由于对生物问题不够了解,最后成为只有做生物信息的人才看的方法。这也在一定程度上导致了部分生物学家对生物信息存在偏见,认为生物信息就是提出新算法,做一些数据库。要想真正让生物学家认识到生物信息学的重要性,就要以解决生物问题为根本出发点,即使是做预测方法,也要建立在解决生物问题的基础上。做出更好预测方法的关键是深入理解生物问题并抓住关键特征。举个例子,要把男生和女生分开,我们可以根据很多特征,比如身高、体重、头发长短,虽然大多数情况下来说,男生比女生高、比女生重、比女生头发短。但是只基于这些特征还是会造成很多的分类错误,因为这些特征不是男生女生差别的最根本因素。如果我们是根据性染色体来分,那正确率的提高就非常显著了。在预测问题中,利用五花八门的方法并不是关键,如何能够对生物问题深入了解并找到关键特征,才是最主要的。

作为一门新兴的学科,大家对生物信息的了解还很少,很多人对它的定位也不同。但既然是生物信息,就是先生物后信息,可见生物的重要性。所以,在生物信息的研究过程中,对生物问题只限于表面地理解,势必不能做出好的工作。只有对生物问题有了深入了解,才能发现其中的问题。能够找到值得做的问题,可以说工作已经成功了一大半。当然,解决问题过程中也会有很多困难,比如发现了值得研究的课题,但在解决的过程当中发现某些数据无法获得,或者某些技术超出了自己的能力范围。在这种情况下,可以首先想想有没有其它变通的办法可以解决问题,如果经过慎重的考虑都无法找到,就要果断的放弃。这里要强调一定要慎重考虑,不能遇到一点困难就放弃。

相比理工科背景的学生,生物背景的学生有着扎实的生物学知识基础。但是如果是从本科阶段直接进入生物信息学,由于还没有进行过实验操作,他们对生物问题的理解也很难非常深入。不管是理工科背景还是生物背景的学生,丰富的生物学知识都是进行好的生物信息学研究的前提。在培养学生时不可忽视对其基础生物学知识的传授和教育,并适当引导其对生物学问题的思考。生物学问题可以很大也可以很小。大的生物学问题任何一个懂得基础生物学知识的人都可以提出,但也是最难解决的,比如到底是什么改变使细胞恶变,自身免疫病是如何形成的,心血管病糖尿病等复杂疾病是如何发生的,为何有人容易生某种病而其他人不易感。小的生物学问题就是各自领域的具体研究课题,比如表观遗传学领域的DNA去甲基化酶是否存在,基因表达调控领域的转录起始频率是如何决定的,RNA领域的大量非编码RNA的作用,蛋白修饰领域新发现的修饰如何调控蛋白的功能等等。在脑中提出并试图思考一系列大大小小的生物学问题是对学生培养目标的第一步。这些问题的产生的前提是对生物学知识的熟悉掌握。然而在对学生培养的过程中没必要也不可能告诉他们所有的知识,生物学知识教育的原则是为他们打开门,当他们思考问题的时候知道去哪里找到相关的知识。

另一方面,只有生物学基础知识和问题是不够的。很多问题在生物信息学产生之前就存在了,传统的方法无法带给人们问题的答案。人们一直期待新的方法去理解和解决这些问题。生物信息学的产生无疑提供给人们另一种思考生物问题的方式,为一些经典问题的解决提供了可能。例如最近的大规模的肿瘤基因组测序和分析使我们发现了很多新的肿瘤相关基因[2]。对于生物背景的学生,在教学中要把这样的例子介绍给学生,生物背景的学生在理解信息学理论方面会存在困难。最初很难要求他们理解所有具体过程。但是至少要让他们知道这些方法的基本原理,还有在什么情况下使用。这样在以后的研究中遇到类似问题才能想到应该选择什么样的信息学工具去解决,在具体应用过程中加深对整个过程的理解。生物背景的学生如果想成为生物信息学专家,只会应用是不够的,补充一些计算机、统计、信息方面的基础知识是必不可少的。

生物信息学是一门仍处在快速发展之中的学科。还没有一本教材能够满足生物信息学教学的需要,生物信息学立足于分子生物学、模式识别、计算机科学与技术、数学和统计学等学科,所以学生要先对这些学科的基本概念和系统有一个较为全面和直观的认识,为日后的科研打下坚实的基础。另外,培养过程中要包括大量的实例介绍,对一些重要的应用还加以详细解剖,使得同学们不再仅掌握理论,而是能够学会如何在实际工作中灵活应用这些理论。在此基础之上,向同学们推荐一些最新的论文、期刊、参考读物和相关的学术报告,让同学们能够切身感受到学科发展的前沿,培养学生的创新能力。21世纪是生命科学的时代,也是信息科学的时代。生物信息学在这样的历史条件下产生并壮大,它作为多个领域的交叉新兴学科,对生命科学研究有着巨大的推动力。生物信息学是一门应用性非常强的学科,也是一门非常活跃的前沿学科,良好的教学效果必须以先进的内容体系为基础,我们应时刻注意以科研促进教学,教学科研相长,使教学研究达到更高的水平。

[参考文献]

[1]蒋彦等.基础生物信息学及应用[M].北京:清华大学出版社,2003

第3篇

中图分类号: G643;Q-3 文献标识码: B 文章编号: 1008-2409(2008)05-0967-03

人类基因组计划的成功实施使生命科学进入了信息时代。基因组学、蛋白质组学和生物芯片 技术的发展,使得与生命科学相关的数据量呈线性高速增长。对这些数据全面、正确的解读 ,为阐明生命的本质提供了可能。连接生物数据与医学科学研究的是生物信息学(Bioinform atics)。应用生物信息学研究方法分析生物数据,提出与疾病发生、发展相关的基因或基因 群,再进行实验验证,是一条高效的研究途经。医学是研究生命的科学,医学研究在基础上 就注定离不开对生物信息的了解。

我国目前医学研究生教学模式主要有两种, 一是医学本科教育延续过来的理论型, 这种类型 的教育是在本科教学大纲的基础上, 按照教学计划进行理论讲授, 最后按照导师指定的课题 完成毕业论文。这种培养模式突出理论学习, 忽视了实验机能和科研能力的培养。二是科研 能力培养的前轻后重型, 前期只是进行理论授课, 后期由导师指导学生的科研。这种模式虽 然开设了一定的实验项目, 但对研究生科研能力的培养缺乏系统性, 并且前期的培养不足直 接影响到研究生后期的学位课题和论文的进度、质量。

因此,笔者对生物信息学在医学硕士研究生中的教育初探,不但有利于该门课程尚未完全形 成成熟的课程体系之际,为教师学习借鉴先进的教育思想与教学实践经验,更有利于医学硕 士研究生对生物信息学的学习。

1 生物信息学的研究范围

生物信息学是一门新兴的交叉学科,涉及生物学、数学和信息科学等学科领域,并注定以互 联网为媒介,数据库为载体,利用数学知识、各种计算模型,并以计算机为工具,进行各种 生物信息分析,以理解海量分子数据中的生物学含义。

生物信息包括多种类型的数据,如核酸和蛋白质序列、蛋白质二级结构和三级结构的数据等 。由实验获得的核酸蛋白序列和三维结构数据等构成初级数据,由此构建的数据库称初级数 据库。由初级数据分析得来的诸如二级结构、疏水位点、结构域(Domain),由核酸序列翻译 来的蛋白质以及预测的二级三级结构,称为二级数据。创新算法和软件是生物信息学持续发 展的基础,高通量生物学研究方法和平台技术是验证生物信息学研究结果的关键技术。因此 ,现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学 等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列 等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息 的科学。从其研究所涉及的学科上看,生物信息学是集生物学、数学、信息学和计算机科学 一体化的一门新的科学;从其研究的主要内容上看,基因组信息学、蛋白质的结构模拟以及 药物设计是生物信息学的三个重要组成部分,并有机地结合在一起[1]。

2 医学硕士研究生中的生物信息学教学初探

2.1 课堂教学重在教授实践技巧与方法

生物信息学在医学研究生中的教学应以教授实践技巧为主,以介绍原理为辅,深入浅出,注 重课堂知识与科研实践的紧密结合。课堂讲授应简要介绍生物信息学的相关算法、原理,着 重介绍其使用技巧与方法,真正做到“有的放矢”,而这也是教学的重点和难点。

在教学中对于这部分内容应遵循深入浅出、避繁就简的原则,结合具体实例分析算法,避免 空洞复杂的算法讲解让学生觉得枯燥乏味、晦涩难懂,产生畏惧心理,知难而退;注重讲解 使用技巧与方法的思想和来龙去脉,让学生真正掌握解决问题的思路,培养其科学思维能力 ,并采用探讨式教学鼓励学生思考,通过讨论与研究的方式循序渐进的掌握复杂的内容,介 绍相关的教学和物理学知识,使学生充分体会到生物信息学与其他学科的关系,其他学科的 思想方法对于生物科学的重要性,培养其自觉地将其他学科的方法和思想应用于解决生物 学问题的科学素质。 任何学科都处于不断地发展、更新中,生物信息无论是理论研究还是 应用研究仍处于不断发展完善中,同时随着新的应用领域和新问题的发现,其他学科的方 法也在不断地应用于生物信息学,进一步增加了其多学科交叉融合的深度和广度。

2.2 充分利用现代化教育技术,采用案例教学

目前,高等院校在教室内配备的多媒体投影播放系统,促进了多媒体教学的广泛应用。生物 信息学采用多媒体教学是适应学科特点、提高教学效果和充分利用现代化教育技术的一项基 本要求。作为生物信息学教学的基本模式,多媒体教学使讲解的内容更加直观形象,尤其是 对于具体数据库的介绍以及数据库检索、数据库相似性搜索、序列分析和蛋白质结构预测等 内容涉及到的具体方法和工具的讲解,可以激发学生的学习兴趣,加深学生对知识的理解和 掌握,提高学生理论与实践相结合的能力。

但多媒体教室也有局限性,学生主要以听讲为主不能及时实践,教师讲解与学生实践相脱节 ,如果将生物信息学课程安排在计算机房内进行,并采用多媒体电子教室的教学方式可以解 决上述问题。在教学中采用启发式教学,为学生建立教学情景,学生通过与教师、同学的协 商讨论,参与操作,发现知识,理解知识并掌握知识。例如在讲授“目的基因序列的查寻” 时,除对基本内容的介绍,如数据库的发展、分类等,其他采用案例法,让学生利用搜索工 具查找三大公共核酸数据库,并通过数据库网站的介绍内容对该数据库的发展、内容、特点 进行学习并总结,通过讨论和实际的数据库浏览操作了解三大公共核酸数据库并且掌握数据 库使用方法。

2.3 采用“讲、练”一体化的教学模式,强调学生实践能力的培养

生物信息学课堂教学积极学习借鉴职业培训和计算机课程教学中“讲、练、做”一体化的教 学模式,在理论教学中增加实训内容,在实践教学中结合理论讲授,改变了传统的“以教师 为中心、以教材和讲授为中心”教学方式。

根据教学内容和学生的认知规律,灵活地采用先理论后实践或先实践后理论或边理论边实践 的方法,融生物信息学理论教学与实践操作为一体,使学生的知识和能力得到同步、协调、 综合发展。通常采用先讲后练的方法,即首先介绍原理、方法,之后设计相关的实训内容 让学生上机实践。对于操作性内容和生物信息分析的方法和工具的讲解采取了进行实际演示 的方法,教师边讲解边示范,学生在听课时边听讲边练习或者教师讲解结束后学生再进行练 习,理论与实践高度结合,充分发挥课堂教学的生动性、直观性,加深学生对知识的理解, 培养和提高学生的实践操作能力。

2.4 发挥网络教学优势,优化生物信息学实验教学内容

生物信息学实验教学主要是针对海量生物数据处理与分析的实际需要,培养学生综合运用生 物信息学知识和方法进行生物信息提取、储存、处理、分析的能力,提高学生应用理论知识 解决问题的能力和独立思考、综合分析的能力。生物信息学实验教学内容的选择与安排应按 照循序渐进的原则,针对特定的典型性的生物信息学问题设计,以综合性、设计性实验内容 为主,明确目的要求,突出重点,充分发挥学生的主观能动性和探索精神,以激发学生学习 的主动性和创造性为出发点,加强学生创新精神和实验能力的培养。生物信息学实验教学以 互联网为媒介、计算机为工具,全部在计算机网络实验室内完成。在教学中,充分利用网络 的交互特点实现信息技术与课程的结合。教师通过电子邮件将实验教学内容、实验序列、工 具等传递给学生,学生同样通过电子邮件将实验报告、作业、问题和意见等反馈给教师,教 师在网上批改实验报告后将成绩和评语发送给学生,让学生及时了解自己的学习情况。

生物信息实验教学与现代网络和信息技术密不可分,在教学工作中充分利用现代教育技术较 其他课程更具优势。区别于其他生命科学课程,在教学过程中要求有发达的互联网和计算机 作为必备条件。调查显示国内高校都已建立校园网,其中拥有1000 M主干带宽的高校已占调 查 总数的64.9%,2005年一些综合类大学和理工类院校将率先升级到万兆校园网[2] ,这些都为生物信息学课程在高校开设提供了良好的物质基础。

2.5 考试无纸化,加强实践能力考核

考试重点是考查学生对生物信息分析的基本方法和技能的掌握程度和对结果的分析解释能力 。因此,在生物信息学考试中尝试引入实践技能考试,重点考核学生知识应用能力。实践技 能考试采用无纸化考试方式,学生在互联网环境下,对序列进行生物信息分析并对结果进行 解释,不仅考核学生对基本知识和基本原理的掌握,而且考查学生进行生物信息分析的实际 能力和分析思考能力。通过实践技能考试,淡化理论考试,克服传统的死记硬背,促进学生 注重提高理论用于实践的综合能力,同时更有效地提高学生计算机应用能力。除采用实践技 能考试并将其作为学生成绩的主要部分外,还加强了对学生平时学习态度、学习能力、创新 思维等方面的考核。

总之,生物信息学教学是网络环境下生物教学的全新内容。通过上述教学措施,提高了学生 的 学习积极性、实践操作能力、解决实际问题的综合应用能力及创新能力,收到了良好的教学 效果,得到了学生的普遍欢迎,具有较强的可操作性和实践性。在今后的教学实践中,随着 教师自身素质的提高和进一步的教学改革将会不断完善生物信息学教学,培养具有“大科学 ”素质和意识的医学研究生人才。

参考文献:

[1] 张阳德.生物信息学[M].北京:科学出版社,2004:4.

第4篇

关键词: 生物信息学 农业研究领域 应用

“生物信息学”是英文单词“bioinformatics”的中文译名,其概念是1956年在美国田纳西州gatlinburg召开的“生物学中的信息理论”讨论会上首次被提出的[1],由美国学者lim在1991年发表的文章中首次使用。生物信息学自产生以来,大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段[2]。2003年4月14日,美国人类基因组研究项目首席科学家collins f博士在华盛顿隆重宣布人类基因组计划(human genome project,hgp)的所有目标全部实现[3]。这标志着后基因组时代(post genome era,pge)的来临,是生命科学史中又一个里程碑。生物信息学作为21世纪生物技术的核心,已经成为现代生命科学研究中重要的组成部分。研究基因、蛋白质和生命,其研究成果必将深刻地影响农业。本文重点阐述生物信息学在农业模式植物、种质资源优化、农药的设计开发、作物遗传育种、生态环境改善等方面的最新研究进展。

1.生物信息学在农业模式植物研究领域中的应用

1997年5月美国启动国家植物基因组计划(npgi),旨在绘出包括玉米、大豆、小麦、大麦、高粱、水稻、棉花、西红柿和松树等十多种具有经济价值的关键植物的基因图谱。国家植物基因组计划是与人类基因组工程(hgp)并行的庞大工程[4]。近年来,通过各国科学家的通力合作,植物基因组研究取得了重大进展,拟南芥、水稻等模式植物已完成了全基因组测序。人们可以使用生物信息学的方法系统地研究这些重要农作物的基因表达、蛋白质互作、蛋白质和核酸的定位、代谢物及其调节网络等,从而从分子水平上了解细胞的结构和功能[5]。目前已经建立的农作物生物信息学数据库研究平台有植物转录本(ta)集合数据库tigr、植物核酸序列数据库plantgdb、研究玉米遗传学和基因组学的mazegdb数据库、研究草类和水稻的gramene数据库、研究马铃薯的pomamo数据库,等等。

2.生物信息学在种质资源保存研究领域中的应用

种质资源是农业生产的重要资源,它包括许多农艺性状(如抗病、产量、品质、环境适应性基因等)的等位基因。植物种质资源库是指以植物种质资源为保护对象的保存设施。至1996年,全世界已建成了1300余座植物种质资源库,在我国也已建成30多座作物种质资源库。种质入库保存类型也从单一的种子形式,发展到营养器官、细胞和组织,甚至dna片段等多种形式。保护的物种也从有性繁殖植物扩展到无性繁殖植物及顽拗型种子植物等[6]。近年来,人们越来越多地应用各种分子标记来鉴定种质资源。例如微卫星、aflp、ssap、rbip和snp等。由于对种质资源进行分子标记产生了大量的数据,因此需要建立生物信息学数据库和采用分析工具来实现对这些数据的查询、统计和计算机分析等[7]。

3.生物信息学在农药设计开发研究领域中的应用

传统的药物研制主要是从大量的天然产物、合成化合物,以及矿物中进行筛选,得到一个可供临床使用的药物要耗费大量的时间与金钱。生物信息学在药物研发中的意义在于找到病理过程中关键性的分子靶标、阐明其结构和功能关系,从而指导设计能激活或阻断生物大分子发挥其生物功能的治疗性药物,使药物研发之路从过去的偶然和盲目中找到正确的研发方向。生物信息学为药物研发提供了新的手段[8,9],导致了药物研发模式的改变[10]。目前,生物信息学促进农药研制已有许多成功的例子。itzstein等设计出两种具有与唾液酸酶结合化合物:4-氨基-neu5ac2en和4-胍基-neu5ac2en。其中,后者是前者与唾液酸酶的结合活性的250倍[11]。目前,这两种新药已经进入临床试验阶段。tang sy等学者研制出新一代抗aids药物saquinavir[12]。pungpo等已经设计出几种新型高效的抗hiv-1型药物[13]。杨华铮等人设计合成了十多类数百个除草化合物,经生物活性测定,部分化合物的活性已超过商品化光合作用抑制剂的水平[14]。

现代农药的研发已离不开生物信息技术的参与,随着生物信息学技术的进一步完善和发展,将会大大降低药物研发的成本,提高研发的质量和效率。

4.生物学信息学在作物遗传育种研究领域中的应用

随着主要农作物遗传图谱精确度的提高,以及特定性状相关分子基础的进一步阐明,人们可以利用生物信息学的方法,先从模式生物

中寻找可能的相关基因,然后在作物中找到相应的基因及其位点。农作物的遗传学和分子生物学的研究积累了大量的基因序列、分子标记、图谱和功能方面的数据,可通过建立生物信息学数据库来整合这些数据,从而比较和分析来自不同基因组的基因序列、功能和遗传图谱位置[15]。在此基础上,育种学家就可以应用计算机模型来提出预测假设,从多种复杂的等位基因组合中建立自己所需要的表型,然后从大量遗传标记中筛选到理想的组合,从而培育出新的优良农作物品种。

5.生物信息学在生态环境平衡研究领域中的应用

在生态系统中,基因流从根本上影响能量流和物质流的循环和运转,是生态平衡稳定的根本因素。生物信息学在环境领域主要应用在控制环境污染方面,主要通过数学与计算机的运用构建遗传工程特效菌株,以降解目标基因及其目标污染物为切入点,通过降解污染物的分子遗传物质核酸 dna,以及生物大分子蛋白质酶,达到催化目标污染物的降解,从而维护空气[16]、水源、土地等生态环境的安全。

美国农业研究中心(ars) 的农药特性信息数据库(ppd) 提供 334 种正在广泛使用的杀虫剂信息,涉及它们在环境中转运和降解途径的16种最重要的物化特性。日本丰桥技术大学(toyohashi university of technology) 多环芳烃危险性有机污染物的物化特性、色谱、紫外光谱的谱线图。美国环保局综合风险信息系统数据库(iris) 涉及 600种化学污染物,列出了污染物的毒性与风险评价参数,以及分子遗传毒性参数[17]。除此之外,生物信息学在生物防治[18]中也起到了重要的作用。网络的普及,情报、信息等学科的资源共享,势必会创造出一个环境微生物技术信息的高速发展趋势。

6.生物信息学在食品安全研究领域中的应用

食品在加工制作和存储过程中各种细菌数量发生变化,传统检测方法是进行生化鉴定,但所需时间较长,不能满足检验检疫部门的要求,运用生物信息学方法获得各种致病菌的核酸序列,并对这些序列进行比对,筛选出用于检测的引物和探针,进而运用pcr法[19]、rt-pcr法、荧光rt-pcr法、多重pcr[20]和多重荧光定量pcr等技术,可快速准确地检测出细菌及病毒。此外,对电阻抗、放射测量、elisa法、生物传感器、基因芯片等[21-25]技术也是未来食品病毒检测的发展方向。

转基因食品检测是通过设计特异性的引物对食品样品的dna提取物进行扩增,从而判断样品中是否含有外源性基因片段[26]。通过对转基因农产品数据库信息的及时更新,可准确了解各国新出现和新批准的转基因农产品,便于查找其插入的外源基因片段,以便及时对检验方法进行修改。目前由于某些通过食品传播的病毒具有变异特性,以及检测方法的不完善等因素影响,生物信息学在食品领域的应用还比较有限,但随着食品安全检测数据库的不断完善,相信相关的生物信息学技术将在食品领域发挥越来越重要的作用。

生物信息学广泛用于农业科学研究的各个领域,但是仅有信息资源是不够的,选出符合自己需求的生物信息就需要情报部门,以及信息中介服务机构提供相关服务,通过出版物、信息共享平台、数字图书馆、电子论坛等信息媒介的帮助,科研工作者可快速有效地找到符合需要的信息。目前我国生物信息学发展还很不均衡,与国际前沿有一定差距,这需要从事信息和科研的工作者们不断交流,使得生物信息学能够更好地为我国农业持续健康发展发挥作用。

参考文献:

[1]yockey hp,platzman rp,quastler h.symposium on information.theory in biology.pergamon press,new york,london,1958.

[2]郑国清,张瑞玲.生物信息学的形成与发展[j].河南农业科学,2002,(11):4-7.

[3]骆建新,郑崛村,马用信等.人类基因组计划与后基因组时代.中国生物工程杂志,2003,23,(11):87-94.

[4]曹学军.基因研究的又一壮举——美国国家植物基因组计划[j].国外科技动态,2001,1:24-25.

[5]michael b.genomics and plantcells:application ofgenomics strategies to arabidopsis cellbiology[j].philostransr soc lond b bio sci,2002,357(1422):731-736.

[6]卢新雄.植物种质资源库的设计与建设要求[j].植物学通报,2006,23,(1):119-125.

[7]guy d,noel e,mik

e a.using bioinformatics to analyse germplasm collections [j].springer netherlands,2004:39-54.

[8]郑衍,王非.药物生物信息学,化学化工出版社,2004.1:214-215.

[9]俞庆森,邱建卫,胡艾希.药物设计.化学化工出版社,2005.1:160-164.

[10]austen m,dohrmann c.phenotype—first screening for the identification of novel drug targets.drug discov today,2005,10,(4):275-282.

[11]arun agrawal,ashwini chhatre.state involvement and forest cogovernance:evidence from the indianhmi alayas.stcomp international developmen.t sep 2007:67-86.

[12]tang sy.institutionsand collective action:self-governance in irrigation [m].san francisco,ca:icspress,1999.

[13]pungpo p,saparpakorn p,wolschann p,et a.l computer-aided moleculardesign of highly potenthiv-1 rt inhibitors:3d qsar and moleculardocking studies of efavirenz derivatives[j].sar qsar environres,2006,17,(4):353-370.

[14]杨华铮,刘华银,邹小毛等.计算机辅助设计与合成除草剂的研究[j].计算机与应用化学,1999,16,(5):400.

[15]vassilev d,leunissen j,atanassov a.application of bioinformatics in plant breeding[j].biotechnology & biotechnological equipment,2005,3:139-152.

[16]王春华,谢小保,曾海燕等.深圳市空气微生物污染状况监测分析[j].微生物学杂志,2008,28,(4):93-97.

[17]程树培,严峻,郝春博等.环境生物技术信息学进展[j].环境污染治理技术与设备,2002,3,(11):92-94.

[18]史应武,娄恺,李春.植物内生菌在生物防治中的应用[j].微生物学杂志,2009,29,(6):61-64.

[19]赵玉玲,张天生,张巧艳.pcr 法快速检测肉食品污染沙门菌的实验研究[j].微生物学杂志,2010,30,(3):103-105.

[20]徐义刚,崔丽春,李苏龙等.多重pcr方法快速检测4种主要致腹泻性大肠埃希菌[j].微生物学杂志,2010,30,(3) :25-29.

[21]索标,汪月霞,艾志录.食源性致病菌多重分子生物学检测技术研究进展[j].微生物学杂志,2010,30,(6):71-75

[22]朱晓娥,袁耿彪.基因芯片技术在基因突变诊断中的应用及其前景[j].重庆医学,2010,(22):3128-3131.

[23]陈彦闯,辛明秀.用于分析微生物种类组成的微生物生态学研究方法[j].微生物学杂志,2009,29,(4):79-83.

[24]王大勇,方振东,谢朝新等.食源性致病菌快速检测技术研究进展[j].微生物学杂志,2009,29,(5):67-72.

[25]苏晨曦,潘迎捷,赵勇等.疏水网格滤膜技术检测食源性致病菌的研究进展[j].微生物学杂志,2010,30,(6):76-81.

第5篇

【关键词】云计算 生物信息学

下一代测序技术的应用产生了大量的测序数据,这对生物学特别是生物信息学在数据的存储、管理和搜索等方面带来了新的挑战。一直以来计算机存储和处理数据能力的增长速度都快于生物数据的增长速度,但2003年后,由于测序技术的发展使得测序成本大幅度下降,产生了大量的生物数据,计算机的存储和计算能力逐渐无法满足大数据的需求。这促进了云计算的运用和发展,它使得用户可以根据需求租用硬件设备和软件,避免了对硬件设备的大量资金投入和管理投入。

1 云计算定义

“云”是一个通过虚拟技术把云端计算机或是服务器连接在一起的服务网络。存储和分析数据都由“云”端的服务器或是计算机完成。中国云计算专家刘鹏给出如下定义:“云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。”

按照资源的共享水平,云计算的服务模式分为三种,基础架构即服务(Infrastructure as a service), 平台即服务(Platform as a service)和软件即服务(Software as a service)。

IaaS(Infrastructure as a service) Service:基础架构即服务。它整合了基础设施如虚拟主机、存储设备、网络设备等资源成为一个服务平台提供给用户使用。IaaS位于网络的底层,向用户提供按需分配、按需付费的计算设备和存储设备。

PaaS(Platform as a service)提供服务平台,用户掌控运作应用程序的环境,可以在平台上应用,测试和开发软件。

SaaS(Software as a service)即在服务平台上提供软件供用户使用,用户只使用软件,不掌握操作系统、硬件等网络基础架构。用户不必自己安装软件,只需要浏览器连接到公共的服务平台即可。供应商会按照用户的要求安装所需的软件,并负责软件的升级和维护。

云计算的主要优点:

(1)把用户从安装和测试软件的工作中解脱出来。云计算平台可以按照用户的需求提供软件及硬件的服务。用户不需要考虑网络下面复杂的硬件架构,仅仅需要关注计算和分析就可以。

(2)按需租用计算资源可以让用户支付更少的费用。在云计算平台上,用户在最初时可以租用少量的机器,以后随着需求的增加或减少相应的增加或减少租用的机器。用户所付的费用就是实际租用机器的费用。

(3)云计算方便研究人员之间的数据共享和分析。不同研究者在本地服务器上安装的软件版本可能不同,所以共享数据和软件很困难。云计算可以使登录同一个平台的用户共享操作系统和所有的软件数据,保证了软件的版本同步更新。

2 云计算在生物信息中的应用

我们把云计算在生物信息学中的应用按IaaS, PaaS和SaaS三个方面分别介绍。

2.1 IaaS

用户租用云计算上的虚拟主机可以自己控制计算、存储等硬件设备,建立需要的计算环境。并且大量的生物信息学工具可以打包为虚拟镜像用于租用的云计算的虚拟主机上,可以很方便的进行多种数据分析。如CloVR提供的一个包含预配置和自动的生物信息学流程的虚拟主机,可以运行在本地的计算机上也可以运行在云计算平台上。这个虚拟机以Ubuntu和BioLinux为基础,安装了Grid Engine和Hadoop作为作业调度,Ergatis作为工作流系统,还有很多开源的生物信息学软件,如BLAST、16S rRNA等。用户也可以开发自己的软件运行在虚拟机上。Bioconductor是一个开源的关于R语言的生物信息学库,提供了一系列的软件包用于微阵列数据分析。用户可以下载Bioconductor提供的镜像安装到租用的云计算平台上。

2.2 PaaS

Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的简单易用的工具,提供一个简易的网页用来分析数据。Galaxy Cloudman把Galaxy的软件工具打包成一个镜像,可以在AWS(Amazon Web Service)上应用。用户可以将其他安装在Galaxy平台上的软件安装到自己的云计算平台上,甚至可以在Galaxy Cloudman上定义插件。通过添加额外的工具,可以扩展默认函数并测试和使用。从这个意义上说,Galaxy Cloudman可以看做PaaS。

Eoulsan整合了很多下一代基因数据分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一个框架内,同时,它也支持用户自己开发的插件用于数据分析。

2.3 SaaS

很多传统的生物信息学工具如BLAST、UCSC Genome Browser仅仅用一个浏览器就可以登录到服务器使用相应的服务,它们也可以称为SaaS。这些服务一般由软件工具的开发者提供,伸缩性很差。我们主要介绍应用于云计算平台上可以伸缩的生物信息学工具。

短序列(读段)匹配是指将测序得到短序列匹配到参考基因组上,这是许多测序数据分析的第一步,如SNP识别和基因表达谱分析。CloudBurst,CloudAligner,SEAL和Crossbow都是应用于云计算基于MapReduce的软件,可以匹配数以百万计的序列。Schatz用”seed-and-extend”算法开发的CloudBurst可以确定错误匹配的数目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能处理重亚硫酸盐测序和(双)末端测序产生的数据。CloudAligner弥补了这个缺点,并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配时可以去除重复的序列,这对SNP识别和以后分析很有用。应用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在几个小时内匹配数以十亿计的序列。

差异表达分析可以用来寻找不同样本中表达有明显差别的基因,而RNA测序(RNA-seq)用来量化样本中的基因表达水平。Myrna是一个云计算平台上计算大规模RNA测序的软件。它整合了序列匹配、归一化、聚类分析和统计模型,直接输出不同样本的基因表达水平和不同表达水平的基因。然而,Myrna 最大的缺陷是不能正确地将短序列匹配到外显子拼接位点上。但FX弥补了这个缺点。FX用改进的匹配函数分析RNA数据,以RPKM或是BPKM的格式输出不同基因的表达水平。

3 云计算面临的问题

云计算提供了强大的计算能力,但云计算自身的特点也使它的发展面临了一些困难和制约。云计算在生物信息学上的应用尚处于初期阶段,尽管已经出现了一定数量的生物信息学工具,但仍有很多的分析无法完成,很多的工具还需升级或者开发。云计算上数据的隐私性和安全性也是用户需要考虑的方面。特别是一些生物数据涉及到病人的隐私,但很多国家还没有保护这种数据隐私的法律。云计算服务提供商需要制定一些规则来保护用户的数据。

4 对应用云计算的建议

对于将要使用云计算的用户,需要考虑以下三个方面:数据规模、安全隐私和费用。

数据规模及安全隐私:首先要考虑你的数据规模是否超过了本地计算机的处理能力。现在本地的个人电脑可以处理数千兆的数据,服务器一次可以处理数百G的数据。如果用户熟悉并行计算的技术,可以处理数TB的数据。但如果你的数据更大并且不精通并行计算,本地计算机和服务器就很难处理了,就可以考虑云计算。用户如果要向云计算平台上传输数据,需要考虑数据的安全性和隐私性。比如涉及病人的隐私是否会泄露,云计算服务提供商是否可以保证数据的安全等。

费用:云计算的费用一般是按照使用的计算资源的多少和使用时间的长短计算的。使用云计算前应该评估其使用费用。用户应该考虑所有阶段的费用,如数据传输、保存、分析等。

目前,云计算和生物信息学都处在快速发展当中,云计算在生物信息学中的应用也越来越广泛和深入。特别是生物数据的大规模增涨,生物学家必须从大量的数据当中分辨出有用的信息。这就需要强大的存储能力和计算分析能力,云计算可以很好的解决这个问题。 云计算和生物信息学的结合将极大的促进生物学的发展。

参考文献

[1]刘鹏主编.云计算(第二版)[M].北京:电子工业出版社,2011(05).

[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics

25(11):1363-1369,2009.

[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.

[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,FX:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.

作者简介

李渊(1985-),男,河南省延津县人。硕士研究生学历。现为苏州大学系统生物学研究中心助理实验师。主要研究方向为实验技术。

第6篇

基因组信息爆炸的时代,需要超大规模计算系统来运算。

伴随着基因组研究日新月异的快速发展,相关信息出现了爆炸性增长,迫切需要对海量生物信息进行处理。以DNA碱基数为例,其增长速度呈指数性增长,大约每14个月就会增长一倍,这种增长速度只有计算机运算能力的增长可以与之相比。所以在当前基因组信息爆炸的时代,需要建立超大规模计算系统,用更准确、更可靠的方法来分析这些数据,从中获得有用的信息是生物信息学取得成果的决定性步骤。

近日,具有万亿次浮点运算能力、基于四核处理器的联想高性能机群――深腾1800落户于上海交通大学,承载着该校在生命科学研究领域的多种核心应用软件。上海生物信息技术研究中心主任李亦学在接受记者采访时说: “生物与计算结合最早叫做计算生物学,从要求来讲,能够进行大规模计算即可,对单个CPU结点的内存没有多大的要求,但随着生物学的发展,对计算机的要求变得比较复杂。一个完整的解决方案,要求对大量不同的数据库同时进行快速检索,然后是数据整合,同时还要做很多并发计算,很多计算是非常耗内存的。实际上并不一定非得要求计算能力非常高,但一定要可靠。再者,需要同时并发完成许多不同的计算。”

李亦学说,他们在进行生物信息计算时会同时存在几十种不同的任务,这不但需要计算机运算速度快,还要求有很大的共享内存。现代生物学为了获得高速运算,必须把所有的数据放在内存中进行操作,这样会节省时间。如果没有很大的共享内存,他们的很多案例就没有办法做了。比如大的基因组测序数据的拼接工作,内存要30G左右,大内存的胖结点可以做到。而四核的发展,其实可以把每个结点共享内存加大,在性价比方面也比较高,这种发展非常符合生物学发展对复杂生物系统计算性能的要求。

据介绍,深腾1800能提供每秒1.02万亿次的双精度浮点峰值运算平台。而此次HPC的部署总计12个计算结点、1个胖结点以及管理结点和存储结点,共计116个CPU内核,附带完备的基础架构。该方案满足了上海交大的需求,也提升了其科研工作效率和综合科研实力。

在高性能计算领域,相对于低端的PC服务器而言,机群服务器及其系统构建更需要专业的应用方案设计技术和精湛的技术服务能力,高性能计算大多用于对计算能力要求比较严格的行业,比如说生物信息学、材料分子学、地质分析以及证券金融等。但是也应该看到我国的HPC已经有了很大的发展,中国的HPC的系统方案也将从标准的通用型走向更切合应用需求特点的专用型。

第7篇

关键词:医学检验;生物信息学;课程教学

近年来,生物信息学在各医药院校越来越受到重视,多所院校相继在研究生教学中开设了生物信息学课程[1]。而对于医学本科层次是否需要开设生物信息学课程这一问题,虽然目前各方面的观点不一,但是已经有一些院校开始进行尝试。目前医学检验专业(五年制,毕业时授予医学学士学位)已调整为医学检验技术专业(四年制,毕业时授予理学学士学位),而生物信息学作为一门新课程,在医学检验(技术)专业学生培养中的作用正日益受到关注,逐步被某些院校选择作为必修课或者选修课。

一、开设课程的必要性

空前繁荣的生物医学大数据的产出,及其蕴含的重大生命奥秘的揭示,将决定现代生命科技和医药产业研发的高度,决定人们对疾病的认识和掌控能力,也将对主导生物医学大数据存储、管理、注释、分析全过程,解决生命密码的关键手段———现代生物信息学技术的发展带来前所未有的机遇和挑战[2]。对于医学专业学生而言,通过学习生物信息学,从而掌握利用各种网络信息资源来检索和获取生物信息数据,并选择和使用各种生物信息学软件来分析数据。在当今大数据时代,这方面的知识和技能的培养对于医学生今后从事医学科研工作是非常重要的。因此,在医学专业学生中开设生物信息学课程非常必要。我校从2010年开始将生物信息学设置为研究生教学的必修课;从2013年开始在医学检验专业中开设生物信息学选修课,自2015年开始转为医学检验技术专业。在医学检验技术专业中开设生物信息学课程,能够为该专业学生的临床和科研方面的素质积累提供必要的支持,更重要的是增强了在医学和信息科学交叉领域解决问题的技能,其意义几乎等同于在研究生教学中的设课意义。

二、教学内容的安排

医学检验技术专业的教学任务非常紧张,几乎将原来医学检验专业前八个学期(最后两个学期为实习阶段)课程压缩到六个学期来完成,学生学习压力可想而知。我校为了减轻学生负担,各课程的课时数都比医学检验专业有所减少。但生物信息学并未改变,仍然为16学时。为了在较短的学时内实现教学效果的最大化,我们结合该专业学生的特点和需求,将授课内容分为理论课和实践课两部分,实践课不占学时。理论课主要介绍基本的生物信息学理论、资源和数据的获取、分析方法和工具的使用;实践课则通过布置作业,课后上机操作来解决问题。理论课主要内容包括:生物信息学导论、DNA测序技术、序列的获取、双序列比对、多序列比对、蛋白质结构分析和预测共计六个专题。实践课主要内容包括:cDNA及基因组参考序列的获取;常见序列格式的释义与转换;双序列比对(局部比对);多序列比对(全局比对);蛋白质综合信息查询;蛋白质基本性质、疏水区、亚细胞定位、信号肽、跨膜区、模体及结构域分析与二级结构预测;蛋白质三级结构预测。在理论课实施过程中,注重将与生物信息学相关的生命科学和医学前沿的一些最新进展和最新成果引入理论知识讲授中,让学生在有限学时内能够进一步认识生物信息学的内涵和课程的价值,追踪前沿学科的动态,开拓视野。

三、教学方法的设计

生物信息学涉及多个学科领域,交叉性强,在较短的学时内学好这门课程的难度很大。学生的学习兴趣与教学内容和手段关系密切,除了精心选择教学内容外,教学方法上也有很多需要革新乃至创新的地方。在教学过程中,我们形成了颇具特色的教学经验,由授课教师独创的授课———实践———演示(Teaching-Practicing-Showing,TPS)教学模式已应用于教学。TPS教学模式着力于以实际问题为引线,将理论授课与上机实践有机地融为一体,逐步介绍生物数据分析的各项技能,并指导学生将其融会贯通以真正掌握相关的基本方法与常用工具。首先,在教学内容上引入具体实例来进行教学,比如讲解生物信息数据库(Gene、Nucleotide、UniProt、PDB等)时,通过给出检索某个人类疾病基因数据的例子来学习数据库的使用方法。课堂上教学实例的设计需要任课教师在备课时投入大量精力来完成,还需要教师具备多学科交叉的知识。教学实践表明,与医学相关的生物信息学分析实例可以让学生更好地认识该课程的作用,大幅度提高学生的学习兴趣和学习的主动性。此外,课堂教学手段也应该丰富多彩,多媒体教学中可以充分使用图片、动画等元素。其次,举例分析时可以进行一定的现场演示,比如讲解检索Unigene数据库时可以一边上网演示一边解释说明。

四、考核方式的变革

生物信息学作为选修课,既要遵循学校相关的考试制度,也要通过对考试方式的变革来提高考试效果。我们将理论考核与学生的实践能力考核联系起来,结合学生课外实践任务的完成情况和开卷考试成绩进行综合评定。在课程中安排一次课外实践任务,要求每位学生独立完成相关分析并提交书面分析报告,该部分占考核成绩的20%。具体内容为自行选择一个人类细胞外功能蛋白:1.利用ClustalX对各物种参考蛋白序列进行多序列比对(输出PS格式结果);2.分析分子量、等电点、分子式、稳定性、亲疏水性及亚细胞定位;3.预测二级结构并模拟三维结构。课程结束后进行开卷考试,内容包括基础知识和综合分析,尽量采取灵活的出题方式,并控制题量,该部分占考核成绩的80%。近年来的教学实践表明,这种综合评定的方式能够反映学生对该课程的掌握程度,体现学生利用生物信息学知识解决问题的能力。

五、展望

实践表明,生物信息学课程教学能够给学生提供所需要的生物信息学知识和技能,但是在教学内容安排、教学方法设计、教学手段使用和教学效果评价等诸多环节都需要进一步探讨。在这个过程中,我们既需要吸收传统教学模式中的优点和精髓,做到严谨和切合实际,又需要更新教学理念,突出医学特色,大胆尝试新的教学方法和手段,最终形成本课程别具一格的教学特色。

作者:伦永志 单位:大连大学

参考文献

第8篇

关键词:生物信息学;形成性评价;教育教学改革

中图分类号:G642.4 文献标志码:A 文章编号:1674-9324(2014)22-0147-02

生物信息学(Bioinformatics)是近二十年来迅速发展起来的一门新兴前沿学科,它综合利用计算机科学和信息技术,通过对海量生物学数据的处理和分析,揭示其中蕴藏的内在联系和生物学含义,进而提炼有用的生物学知识。随着人类基因组和多种模式生物测序的完成,有关核酸、蛋白序列和结构的数据呈指数增长,面对如此庞大而复杂的数据资源,运用计算机获取管理分析数据、控制分析误差、加速分析过程势在必行,生物信息学应运而生并迅速蓬勃发展起来,并逐步成为生命科学在信息时展的核心内容之一,对生命科学研究带来革命性变革。受到国际大环境的影响,国内各重点大学纷纷开展了生物信息学专业的设立,一般医学院校也开展了生物信息学必修及选修课课程,由于生物信息学是新兴学科,在教学现状上存在很多不足,如:教学手段落后;只注重理论教学,忽视理论应用于实践的重要性,导致学生所学的理论知识与实际工作脱节;教学内容简单,体系不完整,完成课程后学生不能将所学知识融会贯通;不注重培养学生的整体生物信息学思维。如何提高生物信息学课程的教学质量是教育教学改革的重要内容。

一、生物信息学的教学特点

1.是多学科、综合交叉的产物。生物信息学是一门由计算机技术、数学、生物医学多学科综合交叉的新兴学科,对本课程的学习,除了要求掌握获取和利用大量生物数据信息的基本知识和技术外,还要求掌握相关的数学、物理学、计算机程序设计、分子生物学等医学基础知识相关的知识和技术,培养的是复合型、交叉型人才。

2.数据、信息量庞杂,发展迅速。目前生物信息数据处于高速的实时更新中,数据类型和内容相当丰富,同时亦包含大量的冗余及错误数据,仅GenBank数据库就包含了来源于十多万个物种的数据,除了人类还包括小鼠、拟南芥、水稻、斑马鱼、果蝇等模式生物及原核生物、病毒等数据。近十年来,核酸碱基数目大约每14个月就翻一倍,2014年1月2日,在Nucleotide数据库中输入Human,就可以获取30 942 725条数据,而两年前这数字仅为14 617 064。面对这么庞杂的海量数据,教学内容必须围绕方式、方法来展开。

3.教学及课后学习应用必须在网络环境中进行。海量的数据均存储在网络环境下的数据库中,信息的获取、分析和处理都必须通过Internet网络来实现。因此教学活动亦必须围绕网络环境展开,利用网络,传授学生获取数据信息并开发和利用的技能,强化操作训练,增强学生分析解决问题的能力。综合来说,生物信息学的教学内容丰富,教学方法多样,考核评价及教学效果反馈复杂,因此,传统的学习评价不能适应生物信息学教学的发展。

二、形成性评价的内涵

形成性评价(Formative assecssment)是1967年由美国的评价学专家斯克里芬(M. Scriven)提出的,后被美国的教育学家布卢姆(B.S.Bloom)应用于教学领域。指在教育活动中,即学生知识、技能及态度的形成过程中检测学生的进步,监控学生知识与技能的获得,评价学生的学习进展情况,最终通过反馈来调整教学以提高教学质量。形成性评价是在教学过程中为了获得有关教学的反馈信息,改进教学,使学生知识达到的掌握程度所进行的系统性评价。

三、形成性评价应用于生物信息学的优势

形成性评价强调的是对教和学过程进行多层次、多元化的分析和判断,促进教和学过程的完善和发展,同时,形成性评价还强调对学生的学习过程进行评价,它不仅从评价者的需要出发,更注重从被评价者的需要出发,重视学生在学习中的体验,重视师生间的交流,使学生在评价中能正确了解自我、完善自我,利于培养学生的自主学习能力。

1.评价贯穿整个学习过程,符合生物信息学内容的复杂性。生物信息学内容丰富、庞杂,更新快,传统的终结性评价只考察学生掌握的部分内容,因此评价过于片面,而形成性评价贯穿在学生学习的整个过程,对学生日常学习过程的表现、所取得的成绩及所反映的情感、态度、学习策略等方面做出评价,更符合生物信息学的教学工作。

2.评价主体更加多元,激发学生学习主动性,有益于生物信息学技术的自主学习。传统的终结性评价主要是教师对学生的评价,学生往往处于被动状态,无法激发其学习兴趣。形成性评价则强调学生的主动参与,使学生成为积极评价的主体,加强评价者与被评价者之间的互动,鼓励学生自我评价与同学间互评,促使他们不断回顾和反思自己的学习过程及方法,从而进一步培养学生学习的主动性与积极性。这点与生物信息学课程的教学方法多样性不谋而合,激发学生的自主学习、多方法、多手段综合运用的能力。

3.评价结果更全面,更符合生物信息学教学目标。终结性评价常以一次或少数几次测试来批判,重知识轻能力,重片面的知识结果轻学习过程,而形成性评价的内容贯穿整个教与学的过程,不仅注重学生对知识的掌握情况,而且也重视评价学生的学习态度、策略及情感因素,因此更全面更科学。

4.评价结果的反馈作用更有针对性,有利于及时调整教学方法。形成性评价能及时准确地反映学生在一定阶段的学习情况,给学生及教师提供及时的反馈,更有针对性地帮助学生建立自信心,激发和培养学生的学习兴趣及良好的学习习惯,同时可以使教师及时了解学生的学习情况和需要,以便调整教学内容,改进教学方法,从而提高教学效果。

四、形成性评价在生物信息学教学中的应用策略

1.统一规划,制定综合评价方案。开课之初,制定详细的学习评价体系,将该学期的学习教学大纲及课程进度表发给每一位同学,由学生及教师共同参与制定学习计划及学习评价表,每一部分分别由教师评价、学生自评、和小组同学互评三项构成。教师需事先给出评价范例和评估标准,对标准进行合理的描述和解释,以便学生对照执行。在每次自评及互评后,教师应利用E-mail及QQ等在线工具及时的将结果反馈,指出评价过程中的问题及改进的意见。评价方案获得学生的认可方能使学生乐于参与,乐于反思和改进自我,并在评价中体验成功和快乐。

2.建立学习及评价小组。生物信息学的学习方法、获取数据信息的手段很多,学习小组的成立有利于在学习过程中及时交流、相互学习促进和共同解决问题,小组成员间相互更为了解,可以开展课堂学习及课外自主学习的监控和评估,并保证学生互评环节的顺利开展。每次互评将根据参与程度、合作行为、知识掌握程度等记录在册,教师亦应关注和指导小组评价工作的开展,并及时做好小组成员间的协调工作。

3.建立学生学习档案。生物信息学课程基本都依赖网络来完成,每次课堂学习后练习、学生间讨论及学生自评互评等都以电子档案的形式保存,可以包括文字、图片、声音、视频等。学习档案体现了学生的整个学习过程,展示学生努力学习后所取得的进步和成绩,也客观地反映学生的不足,有利于学生形成自我反思和自我评估,有助于培养独立的自我学习习惯,增强参与感和学习积极性。

4.综合成绩评定。在学期末,根据学生学习的全过程,将对学生学习状态的监控纳入最后的成绩评定,制定合理的比例方案,用综合成绩评定取代单一的终结行评定方法,更全面的评价学生。

综上所述,形成性评价体系更适应生物信息学教学特点,有传统评价无法比拟的优点,但同时增加了教师的工作量,无形中实施难度亦加大。为了更好地实施形成性评价,首先应明确的是,这不是教师个人的问题,学校、院系及各部门均应统一认识,建立从上而下的评价机制和比较完善的教学管理及学分管理制度。其次,健全教师参与形成性评价的激励制度,解决教师业绩考核等制约形成性评价实施的因素,建立具体的奖励制度使教师自觉纳入形成性评价,优化课题教学模式。最后,鼓励教师以团队形式参与形成性评价教学改革,分享教学经验,探讨教学问题,进一步提高教学效果。

参考文献:

[1]石晓卫,李永海.浅议高校生物信息学教学改革[J].科技信息,2011,(8):89-89.

[2]胡建平,杨彩萍.生物信息学教学内容改革研究[J].安徽农学通报.2012,18(15):173-175.

[3]谢娜.论形成性评价在大学英语教学中的应用[J].国家教育行政学院学报,2010,(7):74-77.

[4]骆巧丽.网络教学模式下大学英语教学评价体系的构建[J].四川教育学院学报,2010,26(3):95-98.

第9篇

>> 人组蛋白去乙酰化酶11的克隆表达与生物信息学分析 FZ6基因及其蛋白的生物信息学分析 拟南芥和大白菜YABBY蛋白家族的生物信息学分析 斑马鱼TATA结合蛋白的生物信息学分析 黄瓜DVR基因的生物信息学分析 金铁锁糖基转移酶PtT1的克隆与生物信息学分析 黄芩葡萄糖醛酸水解酶基因的克隆、生物信息学分析及表达 蓖麻油体固醇蛋白质的鉴定与生物信息学分析 结核分枝杆菌38kDa蛋白结构与功能的生物信息学分析 新疆细粒棘球绦虫EgAgB8/3蛋白的生物信息学分析及意义 棉铃虫的巧防技术 太子参分解代谢关键酶8′羟化酶基因的克隆及生物信息学分析 红白忍冬SABATH甲基转移酶基因克隆及其生物信息学分析 希金斯炭疽菌腺苷酸环化酶生物信息学分析 丹参类贝壳杉烯氧化酶(SmKOL)基因全长克隆及其生物信息学分析 唇形科植物脚6基脚6基焦磷酸合酶编码基因及其氨基酸序列的生物信息学分析 人ALK-1近端启动子的生物信息学分析 酵母转录因子结合位点保守性的生物信息学分析 玉米谷胱甘肽过氧化物酶的生物信息学分析 欧文氏杆菌铁代谢相关基因的生物信息学分析 常见问题解答 当前所在位置:l)分析棉铃虫类胰蛋白酶氨基酸序列的理化性质;运用DNAMAN软件比对分析氨基酸序列同源性;运用MEGA 5.0中的Fhylogenetic Tree方法构建分子系统发育树;运用在线工具ProtScale ()进行亲、疏水性的分析;运用Psort在线工具()进行蛋白质二级结构的分析预测;运用NCBI数据库中CDD在线工具(http://ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)进行功能结构域的分析。

2 结果与分析

2.1 棉铃虫类胰蛋白酶氨基酸序列理化性质分析

运用ProtParam在线软件分析棉铃虫7种类胰蛋白酶氨基酸序列理化性质,结果见表1。由表1可知,棉铃虫7种类胰蛋白酶在理论等电点、脂溶指数以及氨基酸组成等方面均表现出相似性。其相对分子质量约为70 000,等电点约为5.00,氨基酸数目为253~256,Ala、Cys、Gly和Thr残基含量较高。7种类胰蛋白酶的不稳定系数均较高,其中类胰蛋白酶Ⅲ的不稳定指数最低,为52.08,表明类胰蛋白酶在棉铃虫细胞内的稳定性较差,推测类胰蛋白酶代谢较为活跃,代谢周转的速度较快。棉铃虫7种类胰蛋白酶的脂溶指数均较低,属于亲水性蛋白质。

2.2 棉铃虫类胰蛋白酶氨基酸序列磷酸化位点预测分析

使用NetPhosk 2.0 Server在线工具对棉铃虫7种类胰蛋白酶的氨基酸序列分别进行预测Ser、Thr与Tyr位点处发生磷酸化的概率结果见表2。从表2可见,在氨基酸磷酸化位点中Ser的预测分值最高,表明Ser发生磷酸化的概率最高,并且发现类胰蛋白酶Ⅲ中不具有Thr磷酸化位点;只有类胰蛋白酶Ⅴ具有Tyr磷酸化位点。以类胰蛋白酶Ⅲ为例进行说明:其氨基酸序列在第83位、243位、246位、247位这4个Ser位点处都有可能发生磷酸化,但第247位Ser发生磷酸化的概率最大,为M3=0.973。

2.3 棉铃虫类胰蛋白酶氨基酸序列分子进化树分析

使用MEGA 5.0中的Fhylogenetic Tree方法构建分子系统发育树结果见图1。由图1可知,7种类胰蛋白酶分为两个分支,类胰蛋白酶Ⅰ、Ⅱ、Ⅶ与Ⅴ处于一个分支,类胰蛋白酶Ⅳ、Ⅲ与Ⅵ处于另一个分支。其中,类胰蛋白酶Ⅰ和类胰蛋白酶Ⅱ进化关系较近,类胰蛋白酶Ⅲ与类胰蛋白酶Ⅵ进化关系较近。

2.4 棉铃虫类胰蛋白酶的氨基酸序列分析

1)使用TMHMM 2.0在线工具对7种类胰蛋白酶的氨基酸序列跨膜结构进行预测分析,均不存在跨膜结构域。

2)使用ProtScale工具对7种蛋白酶的亲、疏水性进行分析。7种类胰蛋白酶的总平均亲水性为0.860~0.960,均表现为亲水性。其中,多肽链靠近N末端区域亲水性最强,最低分值为-0.500到-0.600,而C末端区域疏水性最强,最高分值为2.100到2.300。

3)用DNAMAN软件比对分析7种类胰蛋白酶的氨基酸序列同源性(图2)。在这7种蛋白酶氨基酸序列中,有较多保守的区域(如图2中深颜色区域所示)。经过分析发现,7种类胰蛋白酶氨基酸序列结构相似,同源性最高为85.71%。7种类胰蛋白酶中均含有高度保守的必需氨基酸残基,参与维持蛋白酶的空间结构及行使催化功能。比如第10、54、70、179、196、207与231位的Cys残基,它们之间能够形成二硫键以稳定蛋白酶的空间结构。第205位的Asp残基与228、238位的Gly残基能够与底物形成离子键、氢键,参与类胰蛋白酶对底物的识别与结合。第69位的His残基、114位的Asp残基与211位的Ser残基组成了类胰蛋白酶的催化基团,通过电子的传递,与底物分子中的Arg和(或)Lys残基羧基端肽键发生亲核反应,实现催化功能(氨基酸残基位置以类胰蛋白酶Ⅲ为准)。

2.5 棉铃虫类胰蛋白酶的功能结构域分析

使用NCBI数据库中CDD在线工具对类胰蛋白酶Ⅲ进行功能结构域分析(图3)。结果表明,类胰蛋白酶Ⅲ属于胰蛋白酶超家族,具有该家族特有的功能区域。类胰蛋白酶Ⅲ的16位(Ala)与17位(Arg)氨基酸残基之间含有一个自剪切位点(Cleavage site),该位点与酶翻译后的活化及转运有关;69(His)位、114(Asp)位、211(Ser)位氨基酸残基构成酶的催化位点(Active site);205(Asp)位、228(Gly)位、238(Gly)位氨基酸残基形成3个底物结合位点(Substrate binding sites),参与酶对底物的识别与结合,其他类胰蛋白酶的分析也得到相似的结果。

2.6 棉铃虫类胰蛋白酶的亚细胞定位分析

亚细胞定位预测结果见表3。由表3可以看出,类胰蛋白酶Ⅰ、Ⅱ主要位于内质网中,类胰蛋白酶Ⅲ主要位于内质网、液泡及细胞外基质中,而类胰白酶Ⅳ、Ⅴ、Ⅵ与Ⅶ主要位于细胞外基质中。亚细胞定位的多样性体现了类胰蛋白酶在棉铃虫生命活动过程中具有多样性的生物学功能,其中类胰白酶Ⅲ、Ⅳ、Ⅴ、Ⅵ与Ⅶ主要发挥消化作用,因为棉铃虫对食物的消化场所主要位于中肠(细胞外)。而类胰蛋白酶Ⅰ、Ⅱ与Ⅲ可能主要行使免疫保护作用,参与棉铃虫对外界环境的免疫应答。

2.7 棉铃虫类胰蛋白酶的二级结构分析预测

利用NPSA在线工具预测类胰蛋白酶的二级结构(表4)。由表4可知,无规卷曲是该类胰蛋白酶整体结构中的主要组成结构元件,β转角出现概率相对较小。α螺旋主要分布于氨基酸序列两侧,而无规卷曲、延伸链则主要分布在多肽链中间区段。

3 小结与讨论

本研究以棉铃虫肠道内7种类胰蛋白酶为研究对象,运用在线工具对其进行生物信息学分析。结果表明,7种类胰蛋白酶理化性质较为相似,为亲水性蛋白酶。Ser是类胰蛋白酶序列中磷酸化概率最大的氨基酸残基。分子系统发育树结果显示类胰蛋白酶Ⅲ与类胰蛋白酶Ⅵ进化关系较近,而类胰蛋白酶I和类胰蛋白酶Ⅱ在进化关系上更为接近。类胰蛋白酶不存在跨膜结构域,属于基质类蛋白,这与其亲水性的特点吻合。功能结构域分析发现类胰蛋白酶属于胰蛋白酶超家族,其氨基酸序列中含有自切割位点、若干催化残基与结合残基。类胰蛋白酶的亚细胞定位具有多样性,主要分布在细胞外与内质网中,这体现了类胰蛋白酶在棉铃虫生命活动过程中具有多样性的生物学功能。二级结构分析预测表明无规卷曲在该类胰蛋白酶整体结构中所占比例最大,是其主要的结构元件。氨基酸序列同源性分析,7种类胰蛋白酶氨基酸序列的同源性较高,达到了85.71%,并且含有高度保守的必需残基,参与维持蛋白酶的空间结构及行使催化功能,包括维持高级结构的Cys残基,形成底物结合口袋的结合残基及参与催化作用的催化残基。依据此研究结果,能够设计出与类胰蛋白酶活性中心特异性结合的抑制剂,抑制其活性,从而扰乱棉铃虫的正常消化,实现抗虫目的。

参考文献:

[1] 常团结,陈 蕾,路子显,等. 棉铃虫幼虫中肠类胰蛋白酶基因的克隆及在大肠杆菌中的表达[J]. 动物学报,2002,48(6):790-796.

[2] 任晓霞,韩召军,王荫长. 棉铃虫乙酰胆碱酯酶cDN段的克隆和序列分析[J]. 动物学报,2002,48(1):121-124.

[3] 郭线茹,蒋金炜,罗梅浩,等. 转基因抗虫烟草研究进展[J]. 昆虫知识,2005,42(4):358-363.

[4] CHOUGULE N P, GIRI A P,SAINANI M N, et al. Gene expression patterns of Helicoverpa armigera gut proteases[J]. Insect Biochemistry and Molecular Biology,2005,35(4):355-367.

[5] KANG Z, JIANG J H, WANG D, et al. Kunitz-type trypsin inhibitor with high stability from Spinacia oleracea L. seeds[J]. Biochemistry (Moscow),2009,74(1):102-109.

[6] TELANG M A, GIRI A P, SAINANI M N, et al. Characterization of two midgut proteinases of Helicoverpa armigera and their interaction with proteinase inhibitors[J]. Journal of Insect Physiology,2005,51(5):513-522.

[7] TAMHANE V A, CHOUGULE N P, GIRI A P, et al. In vivo and in vitro effect of Capsicum annum proteinase inhibitors on Helicoverpa armigera gut proteinases[J]. Biochim Biophys Acta,2005,1772(2):156-167.

[8] BOWN D P, GATEHOUSE J A. Characterization of a digestive carboxypeptidase from the insect pest corn earworm (Helicoverpa armigera) with novel specificity towards C-terminal glutamate residues[J]. European Journal of Biochemistry,2004, 271(10):2000-2011.

第10篇

关键词 高丛越桔;UFGT;电子克隆;生物信息学

中图分类号 S662.2 文献标识码 A 文章编号 1007-5739(2017)06-0081-04

Analysis on Insilico Cloning and Bioinformatics of Vaccinium corymbosum UFGT Gene

XIN Xiao-juan 1 MA Wei 2 * LI Yu-cheng 3

(1 Daxing′ anling Academy of Agriculture and Forestry in Heilongjiang Province,Daxing′ anling Heilongjiang 165000; 2 Heilongjiang University of Chinese Medicine; 3 Daxing′ anling Forestry Administration)

Abstract [Objective]Using electronic cloning technology to predict UFGT gene of Vaccinium corymbosum.[Methods]Taking Vaccinium uliginosum UFGT sequence as the probe sequence,based on EST sequence from NCBI and assembled by CAP3 sequence assembly programme,using bioinformatics database and related software to predict the structure and function analysis.[Results]The full length of UFGT gene was 1 789 bp and it contained a 1 161 bp ORF,encoding 386 amino acid and the protein is a hydrophilic protein.[Conclusion]The study can provide theoretical and experi-mental basis for further explain of molecular genetic function.

Key words Vaccinium corymbosum;UFGT;insilico cloning;bioinformatics

高丛越桔(Vaccinium corymbosum)原产地为北美,是杜鹃花科(Ericaceae)越桔属(Vaccinium)木本植物,比^适合在中国北方地区栽培,是经济价值最高的优良品种,因其果实大、品质佳、口感好深受人们青睐[1]。

类酮类化合物在高等植物界分布广泛,可以参与花、叶片及果实等颜色的形成,还具有抗炎、抗癌、抗氧化和保护心脑血管系统等多种药理作用[2]。植物中的类黄酮-3-O-葡萄糖基转移酶(UFGT)处于类黄酮合成途径中,形成各种花色苷[3]。目前,科研人员已在葡萄、玉米、水稻、草莓、荔枝等植物上对UFGT基因进行了分析研究[4-5]。

电子克隆是一种基因克隆方法,具有高效、快速、投入低,并可以为实验克隆提供精准的参考序列等优点[6-8]。

本研究基于电子克隆技术,对预测的高丛越桔的UFGT基因进行序列分析,从理化性质、亚细胞定位、氨基酸组成、信号肽、跨膜结构域等方面对该基因编码的蛋白进行了预测,以期为进一步解释基因的分子功能奠定理论及实验基础。

1 材料与方法

1.1 电子克隆获得新基因序列

以笃斯越橘UDP-glucose:flavo-noid 3-O-glucosyltran-sferase(UFGT)基因(KP218512)作为探针,使用Blastn工具检索NCBI中与探针序列同源性较高的高丛越桔EST序列,使用在线工具CAP3[9]进行拼接,以拼接好的重叠群(Contig)为探针,再次Blast检索,如此反复。

1.2 生物信息学分析

对预测的高丛越桔UFGT基因序列进行分析,具体在线生物信息学软件如表1所示。

2 结果与分析

2.1 新基因的识别

以笃斯越橘UDP-glucose:flavo-noid 3-O-glucosyltran-sferase(UFGT)基因(KP218512)为探针,获得全长为1 789 bp的Contig 1条,其开放阅读框长度为1 161 bp,编码386个氨基酸,具体见图1。

2.2 高丛越桔UFGT基因编码氨基酸一级结构预测

蛋白质是生命功能的执行者,分析蛋白质的氨基酸序列,是蛋白质研究的重要组成部分。基于蛋白质数据库,通过在线软件ProtParam[10],对高丛越桔UFGT基因编码的氨基酸的一级结构预测见表2。

2.3 高丛越桔UFGT信号肽预测和分析

蛋白质的跨膜转运主要依靠信号肽指导。采用SignaIP-4.1 Server[11],预测高丛越桔UFGT的信号肽,结果如图2所示。可以看出,高丛越桔UFGT基因所编码的蛋白质不存在信号肽,该蛋白不进行转运。

2.4 高丛越桔UFGT蛋白疏水性/亲水性分析

对高丛越桔UFGT编码的氨基酸用ProScale在线软件[12]进行亲疏水性预测,一般负值越大表示蛋白亲水性越强,正值越大疏水性越强,结果如图3所示。可以看出,高丛越桔UFGT编码的蛋白为亲水性蛋白质,最小值-1.476,最大值1.205,这与一级结构预测的结果一致。

2.5 高丛越桔UFGT蛋白质跨膜结构预测

生物膜功能的主要承担者为膜蛋白。通过在线跨膜蛋白结构预测TMpred软件预测其蛋白质跨膜区和跨膜方向,结果如图4所示。可以看出,该蛋白中存在3个跨膜区,即32-51、86-104、249-270氨基酸位置。

2.6 高丛越桔UFGT蛋白的亚细胞定位

蛋白质由位于细胞质中的核糖体合成之后,需要转运到合适的位置才能正常行使其功能。基于蛋白质数据库,使用Psort在线软件[13]对高丛越桔UFGT蛋白进行亚细胞定位,具体结果见图5。可以看出,该蛋白在细胞质和线粒体的概率是39.1%,在细胞核的概率是13.0%,在细胞液中有8.7%的概率,可能主要分布于细胞质和线粒体中。

2.7 高丛越桔UFGT蛋白的二级结构预测

蛋白质中约85%的残基处于3种稳定二级结构,即α-螺旋、β-折叠和β-转角。二级结构预测的目的是根据一级结构判断残基是否处于特定二级结构。基于蛋白数据库,通过在线软件SOPMA[14] 对高丛越桔UFGT蛋白进行二级结构预测,具体结果见图6。可以看出,该蛋白质的二级结构主要由4种形式组成,即由α-螺旋占41.97%,无规卷曲占30.57%,延伸链占17.88%,β-转角占9.59%。据此推测,α-螺旋是高丛越桔UFGT蛋白二级结构中数量最多的结构元件。

2.8 高丛越桔UFGT蛋白的三级结构预测

采用同源建模法,利用SWISS-MODEL在线软件[15]对高丛越桔UFGT蛋白的三级结构进行预测,具体结果见图7。可以看出,该蛋白主要有无规则卷曲、α-螺旋2种结构,同时还伴随着延伸链、β-转角2种结构,基本与二级结构预测结果一致。

2.9 蛋白质磷酸化位点分析

蛋白质翻译后有精氨酸甲基化、磷酸化、ADP核糖基化、糖基化等多种修饰形式,其中,磷酸化是一种重要的共价修饰方式。利用NetPhos 3.1 Server在线软件分析[16]的具体结果见图8。可以看出,有15个丝氨酸(Ser)、10个苏氨酸(Thr)、1个酪氨酸(Tyr)可能成为蛋白激酶磷酸化位点。

3 结论与讨论

目前,越桔具有较高的营养价值,且药理作用正逐渐被人们认识[17]。越桔含有丰富的多酚类物质,如黄酮醇、酚酸和花青素。其中黄酮醇具有降低心血管和退化性疾病的风险能力[18]。花青素被证明具有减轻炎症、降低血糖、影响脂质代谢和脂肪沉积、减少大分子的氧化损伤[19]等作用。

通过电子克隆技术预测高丛越桔UFGT基因,全长为1 789 bp,开放阅读框长度为1 161 bp,编码386个氨基酸。该蛋白为亲水性的非分泌蛋白,且其中存在一处跨膜区。该蛋白主要由α-螺旋、无规则卷曲构成的二级结构,在细胞质和线粒体中分布的可能性最大,有15个丝氨酸(Ser)、10个苏氨酸(Thr)、1个酪氨酸(Tyr)可能成为蛋白激酶磷酸化位点[20-21]。通过本研究预测的结果,为未来UFGT基因在高丛越桔中提取、克隆及基因功能方面的研究奠定基础,同时也为电子克隆技术的广泛应用提供参考。

4 参考文献

[1] 赵建萍,柏新富,蒋小满,等.北高丛越桔芽器官离体培养与快繁体系的建立[J].林业科学,2007,43(5):111-115.

[2] 周军,姚泉洪,彭日荷,等.巨峰葡萄查尔酮异构酶基因克隆及表达分析[J].西北植物学报,2009,29(9):1723-1729.

[3] KOBAYASHI S,ISHIMARU M,DING C K,et parison of UDP-glucose:flavonoid 3-O-glucosyltransferase (UFGT) gene sequences be-tween white grapes(Vitis vinifera) and their sports with red skin[J].Plant Science,2001,160(3):543-550.

[4] 付海辉,辛培尧,许玉兰,等.几种经济植物 UFGT 基因的生物信息学分析[J].基因组学与应用生物学,2010,30(1):92-102.

[5] 赵志常,胡福初,胡桂兵,等.荔枝类黄酮糖基转移酶 (UFGT) 基因的克隆及其原核表达研究[J].广西师范大学学报(自然科学版),2011,29(4):104-110.

[6] HUMINIECKI L,BICKNELL R.In silico cloning of novel endothelial-specific genes[J].Genome Research,2000,10(11):1796-1806.

[7] GILL R W,SANSEAU P.Rapid in silico cloning of genes using expressed sequence tags (ESTs)[J].Biotechnology annual review,2000,5:25-44.

[8] 王冬冬,朱延明,李勇,等.子克隆技术及其在植物基因工程中的应用[J].东北农业大学学报,2006,37(3):403-408.

[9] PHUANG X,MADAN A.CAP3:A DNA sequence assembly program[J].Genome research,1999,9(9):868-877.

[10] GASTEIGER E,HOOGLAND C,GATTIKER A,et al.Protein identifi-cation and analysis tools on the ExPASy server[M].Humana Press,2005.

[11] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:disc-riminating signal peptides from transmembrane regions[J].Nature met-hods,2011,8(10):785-786.

[12] KYTE J,DOOLITTLE R F.A simple method for displaying the hydr-opathic character of a protein[J].Journal of molecular biology,1982,157(1):105-132.

[13] PSORT I I.PSORT:a program for detecting sorting signals in proteins and predicting their subcellular localization[J].J.Mol.Biol,1997,266:594-600.

[14] GEOURJON C,DELEAGE G.SOPMA:significant improvements in pr-otein secondary structure prediction by consensus prediction from mul-tiple alignments[J].Computer applications in the biosciences:CABIOS,1995,11(6):681-684.

[15] BIASINI M,BIENERT S,WATERHOUSE A,et al.SWISS-MODEL:m-odelling protein tertiary and quaternary structure using evolutionary in-formation[J].Nucleic acids research,2014:340.

[16] BLOM N,GAMMELTOFT S,BRUNAK S.Sequence and structure-ba-sed prediction of eukaryotic protein phosphorylation sites[J].Journal of molecular biology,1999,294(5):1351-1362.

[17] 李丹,林琳.越桔食品资源的开发与利用[J].食品与发酵工业,2000,26(4):76-81.

[18] 刘淑兰,吕秀莲,王晓军,等.越橘的化学成分与药理活性研究进展[J].中医药学报,2006,34(6):53-54.

[19] RISO P,KLIMIS-ZACAS D,DEL BO C,et al.Effect of a wild blueberry (Vaccinium angustifolium)drink intervention on markers of oxidative stress,inflammation and endothelial function in humans with cardiova-scular risk factors[J].European journal of nutrition,2013,52(3):949.

第11篇

人类基因组计划的实施为分子生物学家提供了大量的生物组学数据,分析和处理这些数据以探索其中隐藏的生物学奥秘需要综合利用数学、信息科学与物理学等知识,生物信息学由此应运而生[1]。它是分子生物学与上述学科交叉结合的产物,其研究已经渗透到生命科学的各个领域并极大促进了生命科学及相关学科的发展,已成为生命科学研究者强有力的辅助工具之一。国内很多医学院校已开办生物信息学课程,多种专业选择其作为必修课或选修课。该课程旨在培养学生综合运用生物信息学知识和方法进行生物信息提取、储存、处理和分析的能力,但该课程的教学研究仍处于起步阶段,缺乏完善的教学模式和有效的教学方法,如何在医学院校开展生物信息学教学还有待进一步探索。

1 课程开设的重要性

生物信息学跨越了整个生命科学领域,是一门实用性很强的学科,也是未来生物医学的重要研究工具。生物技术、计算机和互联网的飞速发展引领了一个生物医学大数据时代,生物信息学在生命科学领域的地位也愈发重要。利用生物信息学的知识和方法能够深入挖掘和剖析海量生物学数据,进而探索隐藏在数据背后的生物学奥秘。无论是从分子生物学的角度阐述疾病病因,还是对疾病的预防、诊断、防治与药物设计,生物信息学均发挥了十分重要的作用,掌握该课程的基本知识和理论无论对以后的科学研究还是从事一线医务工作都具有比较深远的意义。因此,在医学院校部分专业(如:生物统计、药学等)开设生物信息学课程具有重要意义。

2 生物信息学教学存在的问题

2.1 课程内容与教学课时不成比例

生物信息学是一门综合性学科,理解和掌握该课程需要具有一定的计算机、数学和分子生物学等的背景知识。医学院校学生普遍存在理科知识比较薄弱,因此,讲解透彻该门课程需要教师在课堂上花费一定的时间普及相关背景知识。然而由于医学院校学生课程门类众多,客观条件决定无法为生物信息学安排足够多的课时。较之生物信息学繁多的内容而言,课时分配明显不足。在课时相对较少的情况下,无法深入讲解将每个章节的内容。

2.2 教学师资力量薄弱

生物信息学作为一门交叉学科,要求任课教师精通生物学、计算机和统计学等相关知识。由于国内生物信息学兴起时间较短,培养人才数量有限,且有限的人才都流向了一流的学校,普通高校无法招到专业对口的教师。因此,能够胜任生物信息学教学任务的老师十分匮乏。以该校为例,生物信息学课程没有固定的任课教师,基本由生物学、医学统计学教师完成,这些老师中大多数无法完全胜任生物信息学的教学任务。最终致使生物信息学教学质量不高。

2.3 教学模式落后

虽然多媒体已被广泛应用于生物信息学的教学中,但由于该课程涉及内容多且有大量的数据库和软件知识,导致多媒体课件的容量非常大,教师在课堂上基本是照本宣科的读完课件完成教学任务而已,忽略了学生的接受能力。这种教学模式虽然运用了先进的教学工具,但实质上采用的还是传统的“灌输式”教学,学生仍然是被动地学习。

2.4 实践教学流于形式

生物信息学是一门实践性很强的学科,实践课程非常重要。然而在教学过程中,由于各种原因实践课往往流于形式,原因主要包括:(1)教学设备及手段落后。虽然有些学校有计算机室,但计算机配置较低且未提供连网服务,生物信息学很多知识的学习需要借助互联网,例如:各种数据库、在线软件等,导致学生无法亲自操作而降低实践课学习效果;(2)课时少、内容多。生物信息学的章节往往涉及到很多软件和平台,甚至有些软件需要编写程序。在实践课时少的情况下,无法在短时间内让学校亲自操作每一种软件。

3 教学改革

3.1 针对不同专业精选教学内容

针对生物信息学内容繁多的事实,应针对不同专业特点精心挑选课授课内容,在有限的课时中让学生学到最基本且重要的生物信息学理论知识。另外,要善于挖掘课外时间,组建课外兴趣小组,设置研究课题作为课外作业,巩固和加深学生对生物信息学的理解。

3.2 培养和引进专业人才

教师知识的渊博程度和教学水平的高低对教学效果的影响十分明显。因此,在教师队伍建设上应采取“走出去,引进来”的措施,一方面挖掘该校教师的潜能,支持和鼓励该校年轻教师到国内外知名高校访学和进修,着力提高该校教师自身的知识素养与技能;另一方面提供丰厚条件引进国内外生物信息学高层人才,为生物信息学教学队伍增添新鲜血液。此外,还可通过定期或不定期举办讲座等方式创造机会加强该校教师及与兄弟院校的交流合作,加强学科建设,提高生物信息学教师的综合素养。

3.3 推进“教、学、研”一体化创新教学模式

针对生物信息学课程的特点,一方面根据课程内容设计小型科研课题激发学生的科研兴趣;另一方面鼓励并指导学生申报学校、省级或国家级大学生科研项目,并鼓励学生参与教师的科研项目,积极开展“教、学、研”一体化的创新教学模式,即融教师的“教”和学生的“学”,以及教师和学生共同参与到“研”的过程于一体[2]。通过这种教学模式能够极大激发学生对生物信息学课程的兴趣和创造力,促使学生快速高效地掌握生物信息学理论和实践知识,有利于学生变被动的学习为主动探究式学习。与此同时,也能够让学生尽早地融入到生物学科学研究的大环境中来,学会合作、学会创造,真正地做到学以致用。

3.4 加强实验课教学

生物信息学实验课教学离不开计算机和网络,加强实验课教学需要在现有设备的基础上,升级计算机配置,并为每台计算机提供上网功能,保障实验课教学顺利进行。积极鼓励学生自带计算机,方便课后继续学习。此外,充分利用发达的互联网技术,创建网上教学平台并将教学内容,最新分析软件等传递给学生,通过教学平台加强与学生的交流互动,及时解决学生学习过程中遇到的问题。在教学内容上,要精简实验课内容,选择有代表性的软件和数据库进行深入讲解,将其它的软件、数据库等相关知识设计成小型研究课题作为作业布置给学生,提高学生自主探索的学习能力。

第12篇

【关键词】数学建模生物信息学教学

【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2014)05-0214-01

1. 引言

生物信息学是融合生命科学与数理科学的一门新兴学科[1]。1995年在人类基因组计划第一个五年总结报告中对生物信息学的定义是: “它是一门研究包括生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,并综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所蕴含的生物学意义的新兴的交叉学科。”随着人类基因组计划的完成,生物信息学的研究进入了后基因组时代,它已广泛的渗透到生物、医药、农业、环境等各个相关研究领域中,成为生命科学和自然科学的重大前沿领域之一。目前,国内很多高等院校已经开设了生物信息学本科专业。

数学建模是一门综合多门学科知识,集应用与能力培养为一体,有利于培养学生的创造意识和应用实践能力的学科[2]。生物信息学专业的本科生在学习完基本的数理知识以及生物信息学专业基础课后,通过数学建模课程的学习,能够使学生综合运用所学的知识解决实际问题,实现了从理论学习到实践应用的跨越;使学生深刻体会到理论指导实践,实践进一步检验和完善理论的过程。本文对数学建模在医学院校生物信息学专业的开展及具体的教学进行了实践探索,目的是培养学生的建模思维和创新能力,为学生综合运用所学知识解决实际问题以及今后的科研打下良好的基础。

2. 教学实践与探索

在医学院校生物信息学专业的数学建模教学中,我们旨在通过体现学科特点的模型的学习以及实践活动培养学生的建模思维、实际动手能力与创新能力。

2.1 精选模型,体现学科特点

在数学建模的教学中,我们主要通过学习已有的数学模型来完成整个课程的学习,包括问题的分析、模型的假设、模型的建立、模型的求解与分析以及后续的模型检验与应用等。因此如何选择适当的模型成为教学中的首要问题。

在选择数学模型时,除了注重模型需具有简洁性和趣味性[3]以外,我们特别选择了能够体现医学院校生物信息学专业特点的模型,与学生所学的专业紧密结合。如DNA序列分类模型、人类癌症基因预测模型、人类疾病网络模型等。此外,在选择这些模型时注意建立的模型具有阶梯性,即由浅入深,由简到繁,以符合学生的逻辑思维。对于给定的实际问题,我们首先想到的是最简单的模型,然后分析模型的局限性及产生的原因,进而寻找策略改进模型,如此形成一种阶梯式的建模过程,最终使得建立的模型越来越接近实际问题,达到完善的地步。例如,对于DNA序列分类模型(2000年全国大学生数学建模竞赛试题),我们可以先后构建特征密码子概率分布判别模型、图论最小生成树模型以及向量空间直观判别模型,这三个模型体现了模型逐步升级的过程。

2.2 逐步引导,培养学生建模思维

数学建模需要综合运用多学科知识,这对于刚刚接触建模的学生来说是比较困难的,需要逐步引导他们,培养建模思维。我们主要借助于具有阶梯性的数学模型、多媒体教学,通过讲解和讨论穿插的教学模式来引导学生。

仍以DNA序列分类模型为例,对于给定的已知类别的序列和待分类的人工序列(序列较短)及自然序列(序列较长),首先想到的是从已知类别中提取特征,用特征对未知序列进行分类。通过讨论,大部分学生很自然的想到选取序列中ATGC四个碱基的含量作为特征,但是这个特征很粗,结果发现很多序列用这个特征无法分类。接下来学生想到用密码子,对64个密码子进行分析提取特征,结果显示此种特征对人工序列得到较好的分类效果,但不适用于自然序列。随后基于上面的结果,进一步应用图论中的最小生成树模型解决问题,发现分类效果较好。此外,在讨论中,有学生也提到了应用“与已知类别特征相近的物质归到一类”的思想,运用二维向量夹角余弦进行分类,结果表明分类效果优于前两种方法。在学习模型的过程中,我们边讲解边引导学生思考问题,讨论问题,并结合多媒体演示,环环相扣,这样的学习方式往往引人入胜,充分调动了学生学习的积极性,培养了学生的建模思维。

2.3 教研结合,培养学生动手能力与创新能力

理论用于指导实践,没有实践的理论是空洞的。在学习完别人建立的模型之后,我们要求学生自己动手解决实际问题,建立模型,正所谓的“依葫芦画瓢”。我们本着寓研于教,教研结合的思想,将科研中遇到的一些实际问题融入教学中,充分发挥学生的想象力与创造力。我们精选具有生物信息学专业特点、体现学科前沿的两个实际问题作为建模试题,让学生三人一组以论文形式完成。如我们选取了给药方案(较简单)和人类癌症miRNA预测(较复杂)两个实际问题作为建模试题。较简单的问题让学生利用实验课的时间进行完成,较复杂的问题以作业形式让学生利用课余时间完成,并将两次建模的成绩作为学生本门课程的最后成绩。

这种考核方式不仅培养了学生动手能力与创新能力,而且让他们体会到之前所学习的专业基础课的意义所在。此外,学生们对科研问题创造性的思维往往超乎我们的想象,为我们生物信息专业的发展注入新的力量,也为学生后续从事相关领域的研究工作打下坚实的基础。

3. 小结

笔者根据自己在医学院校生物信息学专业数学建模课程的教学实践,提出了几点可行性的措施。本着寓研于教,教研结合的思想,通过精选体现学科特点的模型,采取讲解和讨论穿插的教学模式逐步培养学生的建模思维,利用建模试题培养学生实际动手能力与创新能力,取得了较好的教学效果。随着生物信息学以及相关学科的不断发展,生物信息专业的数学建模课程将更加富有挑战性,我们将根据科学发展以及学生的反馈意见不断修订教学内容,丰富教学方法,提高生物信息学专业数学建模课程的教学质量,真正培养学生分析问题、解决问题的能力。

参考文献:

[1]李霞,李亦学,廖飞.生物信息学[M],北京:人民卫生出版社,2010.