生物信息学生物技术

2024-05-14

生物信息学生物技术(精选12篇)

生物信息学生物技术 第1篇

目前, 国内外许多高等院校相继开设了生物信息学课程, 我校也于2007年针对生物技术专业学生开设了此门课程。该课程不仅是一门新兴的学科, 而且学习难度大, 理论课内容相对枯燥, 如何让学生更好地掌握本门课程的内容, 是教师在教学过程中值得深思的问题。实验教学是帮助学生理解抽象理论知识的有力手段, 在教学中显得尤为重要, 但由于开设专业的特殊性, 生物信息学实验教学一直比较薄弱。本文对过去实验教学中存在的问题进行了分析, 并针对问题结合《基因工程原理》课程以及自己的科研对教学内容进行了优化和教学方法上的改进, 取得了一定的成效。

一、过去教学中存在的问题

(一) 实验课教学学时偏少

生物技术专业五年制生物信息学课程总学时为72学时, 其中理论48学时, 实验24学时。生物信息学课程最主要的目标是培养学生通过在线程序或利用生物信息学软件来分析生物学问题的能力, 有效解决学生实验学时不足, 实际操作时间少, 解决实际问题能力较弱的问题。

(二) 与其他课程联系较少

生物信息学课程开设在生物技术专业教学进程的第6学期, 此时学生已具备普通生物学、细胞生物学、分子生物学、生物化学、医学免疫学、遗传学、基因组学、基因工程原理等生命科学的基础知识。但是, 在生物信息学理论课和实践课学习的内容, 如查阅的文献、分析的目的则由授课教师自行指定, 忽略了与其他课程的联系, 不利于学生系统地学习专业课的知识。

二、教学体系的改革和完善

(一) 增加实验课教学学时

从2012年起, 我校生物技术专业由五年制调整为四年制, 同时在修订教学进程的时候将学时调整为理论36学时, 实验36学时, 理论课结束后即为该内容的实践部分, 以此增加学生的实践训练时间。

(二) 将基因工程原理实验课程与生物信息学实践相联系

在基因工程原理的实验中, 我们把家蝇防御素基因作为目的基因, 主要设计的实验内容包括: (1) 目的基因的获得:利用PCR技术扩增已经克隆到p MD-18T载体上的家蝇防御素基因; (2) p SK质粒载体的小量制备; (3) 目的基因与载体的酶切; (4) 目的基因与载体的连接; (5) 大肠杆菌感受态细胞的制备; (6) 重组质粒的转化; (7) 重组子的蓝白斑筛选; (8) 菌落PCR鉴定重组子[2]。

在学生对基因工程实验内容熟悉的基础上, 我们在生物信息学的教学过程中对学生提出问题:家蝇防御素基因现有的研究现状是怎样的?PCR扩增目的基因的过程中引物该如何设计?获得阳性重组子后我们如何判断获得的插入序列就是目的基因呢?

针对这样的疑问, 我们结合基因工程实验对教学内容进行适当的调整: (1) PUBMED获取文献信息:由学生通过PUBMED查找近五年发表的有关家蝇防御素基因研究的文献; (2) 核酸序列分析:以家蝇防御素基因为对象, 分核酸序列的检索、搜索开放阅读框 (ORF) 、限制性酶切分析、引物设计、载体序列识别、核酸序列的比对、分子质量/碱基组成/碱基分布分析和序列转换共8大部分内容进行讲解和学生实践操作; (3) 蛋白质序列分析:同样以家蝇防御素蛋白为对象, 分蛋白质序列检索、蛋白质序列比对、蛋白质基本性质分析 (蛋白质的氨基酸组成、分子量、等电点、亲疏水性分析、跨膜区分析、信号肽分析) 、蛋白质功能预测、蛋白质结构预测 (蛋白质二级结构和三级结构预测) 共5大部分内容进行讲解和指导学生进行实践操作。

(三) 以科研促进生物信息学的教学改革

笔者所在课程组主要集中于功能基因组学的研究, 涉及了功能基因的获取、生物信息学分析、功能验证等方面的内容。学生在课程学习中, 参与到教师的科研课题中, 学会运用生物信息学所学知识实际解决科研问题。学生可自行完成从文献的查阅、目的序列的获取 (由公共数据库获得或实验室测序获得) 、基因序列的分析、理论推导氨基酸序列基本性质的分析及结构和功能的预测、系统发育分析, 如有可能, 学生可通过实验的方法验证生物信息学分析的结果, 同时鼓励学生自主选择感兴趣的基因、蛋白进行课程设计研究, 实践结束后学生将结果以论文形式提交给教师。

三、教学探索的成效

生物信息学是一门实践性很强的学科, 实验教学作为培养学生的重要手段, 在该门课程学习中有着举足轻重的作用。在医学院校生物技术专业生物信息学课程的教学中, 立足于生物医学视角的实践教学, 以与医学相关的基因、蛋白质等数据作为研究的主体, 结合基因工程实验教学改革生物信息学的授课内容, 有利于学生对专业课程知识的系统学习。同时, 结合生物信息学研究前沿和自主科研课题成果, 形成科研教学相融合的实践性教学, 能够充分调动学生学习的主动性和积极性, 进而激发学生的求知欲和创新能力。教学与科研形成相辅相成的互助关系, 科研成果转化为教学资源, 明显充实了教学内容, 提升了教学水平和学生能力。在教学改革探索过程中, 已有学生参与到课题组的科研工作中, 利用所学的生物信息学知识, 通过指定题目或自主选题, 顺利完成毕业实习并发表了科研论文《印鼠客蚤线粒体COⅡ基因的克隆、序列测定和分子系统学分析》[3]、《美洲大蠊i型溶菌酶基因的克隆及其功能预测》[4]、《致倦库蚊防御素基因的克隆与原核表达及蛋白纯化》[5]、《德国小蠊致敏原Blag 2的Glu 233突变的分子对接研究》[6]、《伏马菌素B1特异单链抗体的同源建模及分子对接模拟研究》[7]等, 证明生物信息学课程教学改革切实可行。

参考文献

[1]郭丽, 赵杨, 柏建岭, 等.医学院校生物统计学专业生物信息学教学探索[J].南京医科大学学报 (社会科学版) , 2013, 10 (5) :457-460.

[2]张洁, 王赟, 刘红美.结合科研改进基因工程实验教学的教学实践[J].教育教学论坛, 2012, 28 (42) :70-71.

[3]王赟, 张迎春, 张春林, 等.印鼠客蚤线粒体COⅡ基因的克隆、序列测定和分子系统学分析[J].贵州科学, 2012, 30 (5) :35-39.

[4]王赟, 龙高群, 张春林, 等.美洲大蠊i型溶菌酶基因的克隆及其功能预测[J].动物医学进展, 2012, 33 (9) :21-27.

[5]王赟, 王吉平, 张春林, 等.致倦库蚊防御素基因的克隆与原核表达及蛋白纯化[J].动物医学进展, 2012, 33 (11) :45-50.

[6]杨铁, 王浩, 周波, 等.德国小蠊致敏原Blag 2的Glu 233突变的分子对接研究[J].河南科学, 2015, 33 (3) :359-363.

生物信息学小结 第2篇

目前一般意义的生物信息学是基因层次的

它是一个包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面学科领域。

生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

他是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。

生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。基因组信息

蛋白质的结构模拟 药物设计

它们是生物信息学的三个重要组成部分,生物信息学目前已在理论生物学领域占有了核心地位,它广泛地应用在生物、医药、农业、环境等学科。

2.广义生物信息学主要包括哪几个方面? 广义生物信息学主要包括如下几个方面:

一、生物的遗传信息

DNA―RNA―蛋白质,遗传信息—转录—翻译,遗传信息生物信息学。

二、生命活动的调控

基因的功能、表达和调控(表观遗传学)。蛋白的结构、功能和调控;细胞活动(分化、发育、衰老、死亡)的调控,器官、系统、整体活动的调控;节律、生物钟、分蘖、生长、开花、结果、营养的吸收、传输、转化、对外界信号的反应:含羞草、抗逆性。

三、生物电磁学与电磁生物学

生物电磁学:生命活体在不同层次(电子、离子、原子、基因、细胞、组织、整体等)的活动和不同属性(包括思维、精神)活动时以及和外界环境(生命体周围直至宇宙)相互作用时反映出来的各种电磁信息。人体的电磁辐射(包括发光):频率、强度、频谱。人体信号的调制方式:调幅、调频、编码。

电磁生物学:电磁辐射对生物体的影响,电磁场导致DNA突变,体内细胞电离、极化状态变化导致疾病。

四、视觉系统与光信息处理

视网膜神经元回路与信息处理、彩色视觉及彩色图像的编码、变换机制、眼动成象机制及宽视场、消色差动态成象系统、视觉认知机制及其图像信息的智能模式识别、不同状态立体视觉机制和静态、动态立体视锐度。

五、脑和神经系统与信息

脑的感知觉信息处理原理及其应用,学习、记忆、思维,逻辑思维和形象思维,思维模型与信息处理系统新原理的研究,新的计算模型、新型计算机、如:神经计算机。

六、生物体结构与微光机电系统

DNA驱动的微细机器人,生物大分子到细胞基本结构体系的自组装、自组织,创造新物质的分子工程学研究,分子聚集体的化学。

纳米生物技术将纳米技术和生物技术相集成,在生物医学、电子学、材料学、环境科学等诸多领域具有良好的应用前景。在生物芯片、分子马达、生物探针、纳米生物材料等迅速发展。

七、基因芯片、蛋白质芯片等

目前一般意义的生物信息学是基因层次的,是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。

3.Internet有哪些基本功能?

Internet不仅向其用户提供了全球范围的信息交流与快速通讯手段,其本身也具有极其丰富的信息资源,包括新闻、书刊杂志、数据库、计算机软件、多媒体资料等,也包括大量的生物信息学资源。

4.什么是Entrez?Entrez主要包括哪几个数据库?

Entrez(http://www.ncbi.nim.nih.gov/entraz)是美国国立医学图书馆国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立的生物医学数据库集成检索系统。系统中的数据库包括核酸序列数据库、蛋白质序列数据库、大分子三维结构数据库、全部基因组、孟德尔人类遗传及通过PubMed检索的MEDLINE。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。

5.PubMed的一般检索方法有几种检索途径?

通过NCBI首页(http://www.ncbi.nlm.nih.gov/)或NCBI的Entrez检索系统(http://www.ncbi.nlm.nih.gov/Entrez/)选择PubMed链接选项或直接在浏览器地址栏(URL)中输入“http://www.ncbi.nlm.nih.gov/entrez/query.fcgidb=PubMed”即可进入

PubMed检索界面。PubMed有多种检索途径,包括自由词、文献作者、规范主题词(MeSH)、期刊名称、文献出版年代、文献类型、文献语种、物质名称、记录入档日期、文献出版日期等。既可以单一字段检索,又可以利用高级布尔逻辑表达式多字段组配检索。

6.国际上三大DNA数据库是什么数据库? ,国际三大DNA数据库:NCBI的GenBank,欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)

7.简述进行基因搜索时的基本步骤 ?

在进行基因搜索时的基本步骤:

1、寻找DNA序列中基因不可能出现的区域,并将此遮蔽起来。

2、在启动子区寻找一致的模式,找出转录因子识别DNA结合区域。

3、寻找转录的起始密码、终止密码和剪切位点。

4、找出编码区。然后将全部收集到的信息汇总整理成总体上尽可能连贯的谱图。注意进行不同的分析时使用不同的软件工具以及程序适用的物种选择和应用范围等。

8.BLAST的主要功能都包括什么 ?

1、核酸数据库搜索

组合基因组检索;分为标准的核酸与核酸数据库搜索;MEGABLAST提供大量长序列的比较;完全匹配的短序列搜索;特殊搜索。

2、蛋白数据库搜索

分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系的存在与否和进一步获取这个蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。

3、已翻译蛋白的BLAST搜索

包括[blastx],[tblastn],[tblastx]

4、保守区域的搜索:主要使用RPS-BLAST程序完成。

5、配对序列的两两比较:用于核酸和蛋白的两两比较分析。

6、针对特定数据库的搜索:比如人类基因组、微生物基因组等。

9.利用核酸序列进行基因结构预测的基本步骤是什么?(不确定)一个全面的基因搜索方案,无论是通过单个集成的程序实现,还是通过多个程序分步实现,基本的思路是相同的:

1、通常如果一个序列中某一区域出现重复序列,该区域不大可能处于调控区域和编码区域。

2、如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。

3、一段序列上存在着统计的规则性,表现为显著的“密码子偏好”,是蛋白编码区最明显的标志之一。

4、与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式(例如,众所周知的“TATA box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。

10.根据蛋白质的氨基酸序列预测其空间结构主要预测方法有哪两类?

预测方法主要有两类:

一、采用分子力学、分子动力学的方法,根据物理化学的基本原理,从理论上预测蛋白质分子的空间结构。

二、通过对已知空间结构的蛋白质进行分析,找出一级结构与空间结构的关系,总结出规律,用于新的蛋白质空间结构的预测。本章介绍利用分析蛋白质氨基酸的组成来确认未知蛋白的计算工具、蛋白翻译后修饰、蛋白功能预测。

组成蛋白质的氨基酸序列为蛋白质的一级结构,蛋白质的一级结构决定了蛋白质的性质。组成蛋白质的氨基酸的物理和化学性质早已被人熟知。构成蛋白质的20种氨基酸由于化学构造不同,在结构和功能上具有多样性,任一残基对蛋白质的物理和生化性质都会产生影响,即序列决定构象。由于蛋白质空间结构的基础是一级结构,近年来根据蛋白质的氨基酸序列预测其空间结构,受到科学家的关注。

11.谈谈学习生物信息学的体会(自己发挥吧)

有点粗糙,见谅

生物信息学生物技术 第3篇

关键词:生物信息学 大数据 教学改革 学习兴趣

中图分类号: G642.0 文献标识码:A 文章编号:1674-098X(2016)05(c)-0000-00

生物信息学(Bioinformatics)是一门多元化新兴交叉学科,涵盖了基因组学、计算机科学、数学分析、模式识别、生物统计学等多学科知识[1]。研究内容涉及了基因组信息的获取、整理、存储、比对分析、功能分析、靶点筛选等生物医学领域各个方面。1956年,首届“生物学中的信息理论研讨会”在美国田纳西州盖特林堡召开,生物信息学这一概念被专家提出。随着计算机技术的发展以及人类基因组计划的实施,生物信息学理论被逐步完善。在当代生物医学研究领域,生物信息学这门独特学科的优势逐渐显现,在医学研究中起着不可替代的作用。

2015年,美国政府提出了“精准医疗”战略计划。精准医疗是将现代遗传技术、生物信息学技术、分子影像技术等与患者临床信息相结合,实现精准疾病分类与诊断,制定个性化的预防及治疗方案。我国也在“精准医疗”战略方案上不断跟进,并取得了一系列成果。近年来,随着基因组学研究的不断深入以及高通量测序技术的飞速发展,生物医学研究领域迎来了一个崭新的“大数据”时代。各大平台产生的多组学海量生物数据的存储、分析、发布等问题亟待生物信息学来解决。因此,有学者提出了“生物信息学云服务”概念,简称生物信息云[2]。生物信息云理论提出了海量生物数据的储存、获取、分析等相关需求的服务,是“精准医疗”计划开展和实施的重要手段。因此,扎实掌握生物信息学基础知识,熟练运用生物信息学软件、方法处理生物医学大数据对于生物信息学生来说至关重要。

1“大数据”背景下生物信息学教学中的问题

笔者在对医学院校本科生进行生物信息学教学实践中发现的问题进行了如下总结:

1.1教学进程安排不合理

生物信息学专业课程开设时间较晚。以本学校为例,生物信息相关的专业课程(例如:模式识别、生物数据可视化等)一般都开设在最后一个学年。这一时期正是学生们进行毕业设计的开题阶段,也是一些同学着手准备考取研究生的阶段。由于生物信息学专业知识的缺乏,许多学生并不知道自己需要哪种知识储备,甚至还不清楚自己课题的研究方向。面对就业和考研的双重压力,许多学生在本学期的课程上提不起兴趣,而把大量精力放在了如何做课题以及复习考研上。而在课程设置上,这一学期往往是生物信息学本科阶段中相对重要的时期,多门生物信息学专业课程在此学期展开。这就会导致在课堂上老师拼命讲,学生无心听的现象产生。而缺少对生物信息学专业知识的掌握,也会导致学生们在毕业设计过程中心有余而力不足,直接影响课题进展。

1.2教材建设不完善

教学中缺乏适合生物信息学专业的理论和实验教材。近年来,随着生物信息学的发展,相关的专业书籍也不断涌现,其中外文翻译教材占大多数。由于外文教材需要经历从国外引进、翻译、重新排版等过程,使得这类教材出版周期长,从而导致教材的出版速度赶不上日益更新的生物信息学新技术、新方法。再者,这些教材的编写与设计主要是针对国外生物信息学专业学生。由于教育方式、文化、以及背景知识等差异,国内学生学习目的性更强,对教材的需求及认知与国外相比有着显著不同,这也使得很多外文翻译教材对于国内学生并不适用。当前生物信息学领域教材覆盖范围广、涉及知识内容丰富。这是新兴学科的教材优势,但也暴露出了一些不足之处。许多教材一味追求知识面广,在一些生物信息学专业知识点上只是一笔带过,并没有教学内容的深化。此外,一些教材并没有突出知识特色,不同教材中有内容重复章节,这样会增加学生的学习负担,降低学习兴趣。

2“大数据”背景下生物信息学教学质量提高

生物信息学专业教学难度大,对专业知识要求较高,教学任务艰巨。要保证良好的生物信息学教学质量,顺应生物医学领域飞速发展的潮流,培养优秀的生物信息学专门人才,笔者认为需要从以下几个方面改进:

2.1合理安排教学进程

在生物信息学专业学习的前两个学年,课程设置主要以基础课程为主。以本校为例,生物信息专业学生在大一、大二学年主要学习一些医学基础课程并辅助开展计算机基础课程,例如生物化学、分子生物学、生理学、C语言简介等,在学习基础课程的同时对专业方向有一个简要的了解。在大三学年可以增设一些生物信息学专业课程,例如:模式识别、数据挖掘、生物数据可视化等。在这个学习阶段,学生没还没有进入到毕业设计阶段,研究课题方向还没有确定,通过专业课程的学习不但可以帮助学生掌握生物信息学必备技能,还可以帮助学生明确今后课题研究方向。此外,这一阶段学生们刚刚掌握医学基础知识,正是对专业知识渴求的良好时机,学习兴趣浓厚。此时开设生物信息学专业课程可以取得较好的教学效果。生物信息学是一门飞速发展的学科,相关知识及数据资源在不断更新。因此,在毕业设计阶段,可以开设生物信息学进展课程,聘请著名专家学者为同学们讲授当前生物信息学领域最新进展,使同学们始终把握生物信息学前沿,培养创新思维。

2.2建立完善的教材体系

参考国内外生物信息学教材,对众多优秀的教材进行归纳总结,吸取其优点,对重复内容进行整理,结合本校学生知识背景及培养方向编写生物信息学特色教材。同时将生物信息学领域新方法、新资源、新思路及时编入教材,替换老旧内容。例如一些教材中列举了常用的生物信息学数据库,其中部分数据库已经更新到新的版本,相关访问网址、查询方式等也随之发生变化,而这些内容在一些教材上并没有得到更新。伴随着高通量测序技术的快速发展,一些测序平台产生的大数据也再不断被发布,想要做到根据生物信息前沿进展随时修改教材是一件不可能的事。因此,生物信息学教学也不应仅限于教材,对于知识进展、前沿动态、数据发布等领域内最新成果,教师应当自己制作相关课件,紧跟时代的步伐。这样才能及时将最新、最全、最正确的知识传授给学生。

3结语

随着基因组学研究的不断深入以及高通量测序技术的迅猛发展,生物医学研究领域迎来了一个崭新的“大数据”时代。各大平台检测产生多组学海量生物数据的存储、分析、发布等问题亟待生物信息学来解决。生物信息学作为当前高新热点领域之一,与现代生物医药发展存在密切联系,对科研成果向经济产业转化具有重大的推动意义,生物信息学人才培养以及教学方案也在不断探索中前进。

参考文献

[1]Hogeweg P. The roots of bioinformatics in theoretical bioloby. PLoS Comput Biol. 2011;7(3):e1002021

生物信息学生物技术 第4篇

目前, 医学院校陆续开设了生物信息学课程, 生物信息学作为一门新兴学科, 具有多学科交叉的特性和发展速度快的特点, 因此生物信息学课程教学目前仍处于初级阶段。为进一步提高生物信息学教学质量, 本文作者结合医学院校生物技术专业生物信息学教学实践, 对医学院校本科生生物信息学课程教学中存在的问题进行分析并提出相应对策, 为提高生物信息学教学质量提供参考。

一、学习生物信息学的重要性

21世纪是生命科学的世纪, 生物信息学通过综合利用生物学, 计算机科学和信息技术来揭示大量而复杂的生物数据所赋有的生物学奥秘。目前, 生物信息学也已成为生命科学的核心领域和最具活力的前沿领域, 应该说不论是涉及到简单信息的目的基因查找、引物设计和载体构建还是大数据复杂的基因疾病都或多或少的运用到生物信息学的知识, 著名生物信息学家Alan Bleasby的经典名句“Half day on the web, saves you half month inthe lab”诠释了生物信息学在生命科学中的作用。虽然部分医学院校的的生物信息学仅仅是限定性选修课, 但是生物信息学是今后从事生命科学研究人员肯定能够应用到, 也是必须熟练掌握的知识。深刻地认识生物信息学的重要性, 可以激发医学生的学习生物信息学的兴趣和热情。

二、生物信息学课程授课内容的选择

生物信息学包括开发生物信息学工具的计算生物信息学和利用生物信息学工具解决问题的应用生物信息学。医学背景的生物技术专业的学生应该立足于应用生物信息学的学习, 特别擅长计算机和数学并且对生物信息学感兴趣的同学也可以涉猎部分计算生物信息学的知识, 本人在读博士期间遇到过一个本科生就利用自己计算机方面的特长, 进行雄激素受体和雄激素受体调节剂构效关系的研究, 在指导教师的帮助下发表了一篇生物信息学领域的SCI文章, 在感叹难能可贵的同时, 必须承认指导教师敏锐的洞察到学生的特长, 并发挥其特长会起到意想不到的效果。

此外, 国内有关生物信息学方面的教材因编者学科背景相差很远, 各教材的特色和侧重点有所不同, 相对来讲, 偏理论轻实践。医学院校生物技术专业应校根据本学科特点选择实验性较强的教材, 制定具有生物技术专业特色的教学计划及教学大纲, 有条件有时间的教师可以尝试自己编写适合本院校学习的教材, 那样针对性更强, 学习效果会更佳。针对生物技术专业的特点, 因此我们将引物设计、基因查找、基因序列分析、同源基因和不同物种基因查找、判断起始密码子和终止密码子位置、启动子预测以及简单的蛋白功能分析和常用数据库的应用作为本专业生物信息学知识学习的主体框架。

另外, 生物信息学的软件本人倾向于选取在线工具, 如引物设计软件可选取NCBI网站上的primer blast, 酶切位点分析也可在NEB公司的网站上在线分析, 应该说生物信息学的发展, 欧美国家一些公立网站, 如NCBI, 或者某些相关实验室的网站都提供多种现在分析的工具, 极大地方便了使用者。一来及其方便解决了问题, 避免了盗版问题; 二来可以通过网站学习生物信息学相关知识, 对某些软件的历史渊源有所了解。

三、生物信息学授课时间安排的合理性

生物信息学是一门实践课程, 实验课应该占40% 以上比例, 理论课也应该利用多媒体教室讲授, 在实验课之前应该提前让把本次课内容通过多种即时通讯工具如QQ等发送给学生, 在将核心知识在实验课演练结束后, 进一步布置相关作业强化记忆, 在实践中掌握相关知识, 如引物设计中, 常用的是ncbi网站中在线引物设计工具primer blast和电脑安装软件primer5, 在引物设计完成后, 可以让学生思考融合蛋白表达时移码问题, 即融合蛋白引物设计需要注意哪些问题, 如涉及到移码问题时如何设计引物? 生物信息学是有力的应用工具, 但是还不能完全依赖生物信息学, 我们应该成为生物信息学的高级应用者。

四、生物信息学授课教师的选择

生物信息学是一门交叉学科, 但是笔者认为长期应用生物信息学的医学背景的教师更适合作为医学院校生物技术专业的授课教师。作为一门新兴学科的一名教师保质保量的完成全部授课任务还是有一定难度的, 可以尝试每位老师根据自己特长讲授自己熟悉的章节, 这样一来减少压力, 二来可以较为圆满地完成教学任务, 不同教师还可以给学生带来不同风格的教学模式, 提高学生的新鲜感和教师授课热情。此外, 任课教师应该积极学习相关领域知识, 目前很多国内外著名高校通过网络开始有生物信息学相关的开放课程或慕课, 无论是学生还是任课教师都应该积极参加其中, 提高自己的理论知识和实践技能, 学习优秀教师的授课技巧, 领略该领域大家风采, 笔者就经常参加北京大学等学校的开放课程, 获益匪浅。同时, 在有条件情况下参加国内外相关讲座和学习班, 和同领域的兄弟院校保持联络, 对生物信息学的教学和科研水平的促进帮助大有裨益。

五、扎实的理论是学好生物信息学的保障

除了具有学习生物信息学的热情, 学习生物信息学的医学生还应该掌握与生物信息学紧密相关的知识, 如分子生物学、分子诊断学、计算机相关知识和统计学知识。有条件的学生应该主动参与科研课题, 不论是本院校老师申请的, 还是大学生课题, 都会对学习生物信息学有所帮助。本人读博士期间, 就遇到很多在读本科生参与博士生导师的课题, 在基因序列分析和蛋白功能研究方面都获益匪浅。本人目前也作为指导教师指导本科生独立申请的大学生课题, 在给学生讲授生物信息学时, 明显感觉参与过科研项目的学生对生物信息学知识的掌握, 明显强于没有参与过的本科生。

总之, 我们生物信息学课程教学中做出了一定的探索, 也取得了一定的经验和效果, 但是这只是万里长征的第一步, 需要生物信息学课程的教师更加努力探索, 为培养出更多适应社会发展需要的高素质应用型人才贡献自己的微薄之力。

摘要:生物信息学是现代生命科学的重要组成部分, 在现代生命科学的研究和发展中发挥越来越重要的作用。根据学科发展并结合教学实践, 对医学院校生物技术专业生物信息学课程的教学内容、教学模式和实验教学安排提出几点思考, 为提高生物信息学教学质量提供参考。

关键词:生物信息学,生物技术专业,重要性,合理性

参考文献

[1]郝峰, 许会静, 马睿泽.《生物化学检验》实验课教学改革探讨[J].中国科技信息, 2012, (19) :118.

[2]赵臣, 袁忠海, 侯毅鞠.论信息反馈体系在培养医学检验专业学生实践能力中的作用[J].中国校外教育, 2014, (6) :106.

生物信息学简介 第5篇

生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。

具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。

生物信息学的主要研究方向: 基因组学系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。

姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。

原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

2、发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测

定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

3、主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。

1、序列比对

序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。

2、蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

3、基因识别非编码区分析研究

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。

4、分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。

5、序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。

6、遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

7、基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。

8、生物系统的建模和仿真

随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。

9、生物信息学技术方法的研究

生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。

10、生物图像

没有血缘关系的人,为什么长得那么像呢?

外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?我不知道,希望专家解答。

11、其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。

4、生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积,快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设

和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.5、生物信息学的数学问题

生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1、统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2、度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.6、统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃

刀(“Occam Razor”)原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.7、讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA.乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入“后基因组时代”,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.8、总结

生物信息学生物技术 第6篇

摘 要 牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1)是牛的一种重要病原,可引起牛严重的呼吸道感染、结膜炎、脑炎、产奶量下降、子宫炎、肠炎、传染性脓疱性外阴阴道炎和流产等。以GenBank中编号为U06934.1的BHV-1 gE基因为材料分析其生物信息学,以预测其蛋白主要抗原表位,有助于建立相应的实验模型。

关键词 BHV-1 gE基因;生物信息学分析;抗原表位

中图分类号:Q517 文献标志码:A 文章编号:1673-890X(2014)21--02

1 材料与方法

1.1 BHV-1 gE编码蛋白氨基酸序列

以GenBank中编号为U06934.1的Bovine Herpesvirus 1 (type 1.1) FM glycoprotein gE,complete cds基因为材料。

1.2 gE的跨膜区预测

采用DAS服务器(Cserzo M. et al,1997)(http://www.sbc.su.se/miklos/DAS/),将氨基酸序列输入工作区预测跨膜区。

1.3 gE蛋白二级结构预测

用SOPMA服务器(Geourjon,C. et al,1995)(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)预测gE蛋白的二级结构。

1.4 gE蛋白亲水性、可及性、极性及柔韧性参数预测

采用Hopp&Woods亲水性参数(Hopp TP et al,1981)、Janin可及性参数(Jaint,1979)、Zimmerman极性参数(Zimmerman JM et al,1968)及柔韧性参数预测(http://www.expasy.org/cgi-bin/protscale.pl)。

1.5 gE蛋白抗原位点的预测

采用Antigenic Propensity服务器(Kolaskar AS et al.,FEBS,276,172 1990)(http://www.imtech.res.in/raghava/bcepred/bcepred_submission.htm(l)预测其抗原位点。

2 结果

2.1 gE蛋白的跨膜区预测

采用DAS服务器gE分析,gE蛋白跨膜域位置跨膜区位于14-23、360-363、423-444残基位置之间。

2.2 gE蛋白二级结构预测

二级结构上α-螺旋 (Hh) 106 个占18.43%、伸张结构(β-片层)(Ee)119个占20.70%、β-转角(Tt) 16 个占2.78%、无规卷曲 (Cc) 334个占58.09%,β-转角趋向于突出到蛋白表面,在多肽及蛋白中易作识别位点。

2.3 gE蛋白亲水性、可及性、极性及柔韧性参数预测

采用Janin可及性参数、Zimmerman极性参数、Hopp&Woods亲水性参数对gE蛋白预测,gE蛋白 Janin可及性参数在第427-440个残基达到最大值,gE蛋白 Hopp&Woods亲水性参数422~430个残基达到最大值

2.4 gE蛋白抗原位点的预测

采用Antigenic Propensity服务器预测gE蛋白抗原位点结果如下(下划线区域都是该蛋白质的潜在抗原表位)。

1MQPTAPPRRRLLPLLLPQLLLFGLMAEAKPATETPGSASVDTVFTARAGAPVFLPGPAARPDVRAVRGWSVLAGACSPPVPEPVCLDDRECFTDVALDAACLRTARVAPLAIAELAERPDSTGDKEFVLADPHVSAQLGRNATGVLIAAAAEEDGGVYFLYDRLIGDAGDEETQLALTLQVATAGAQGAARDEEREPATGPTPGPPPHRTTTRAPPRRHGARFRVLPYHSHVYTPGDSFLLSVRLQSEFFDEAPFSASIDWYFLRTAGDCALIRIYETCIFHPEAPACLHPADAQCSFASPYRSETVYSRLYEQCRPDPAGRWPHECEGAAYAAPVAHLRPANNSVDLVFDDAPAAASGLYVFVLQYNGHVEAWDYSLVVTSDRLVRAVTDHTRPEAAAADAPEPGPPLTSEPAGAPTGPAPWLVVLVGALGLAGLVGIAALAVRVCARRASQKRTYDILNPFGPVYTSLPTNEPLDVVVPVSDDEFSLDEDSFVDDDSDDDGPASNPPADAYDLAGAPEPTSGFARAPANGTRSSRSGFKVWFRDPLEDDAAPARTPAAPDYTVVAARLKSILR575

2.5 综合分析

将各种参数和方法预测的可能有抗原表位的肽段综合分析,从表中可以发现,应用不同的预测方法,其预测的抗原表位的个数和抗原表位可能出现的肽段有所不同,其中在第427个氨基酸序列片段达到最大值,但氨基酸序列片段420至480则显示多种预测方法基本一致,具有较好的亲水性、可及性、极性及柔韧性,gE基因分子以β-转角(2.78%)出现的区域较少,α-螺旋(18.43%)较多蛋白结构比较稳定。因此,B细胞表位可能在此两片段或它们附近。

3 结语

牛传染性鼻气管炎(Infectious bovine rhinotracheitis,IBR)是由牛传染性鼻气管炎病毒( IBRV) 引起牛的一种急性、热性、接触性传染病,以高热、呼吸困难、鼻炎、鼻窦炎和上呼吸道炎症为主要特征。又称牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1),IBRV属于疱疹病毒科(Herpesviridae)、疱疹病毒甲亚科(Alphaherpesvirinae),水痘病毒属(Varicellovirus),是牛的一种重要病原。

在机体内,疏水性残基一般埋在蛋白内部,而亲水性残基位于表面,因此蛋白的亲水部位与蛋白的抗原位点有密切的联系,最高亲水性区域常位于抗原决定簇内部或其附近。根据亲水性参数、可及性参数、柔韧性参数以及二级结构预测等综合考虑,BHV-1病毒的抗原表位大部分位于氨基酸残基420-480等区域内或其附近。

本实验通过对BHV-1 gE基因的氨基酸序列生物学分析,为下一步实验的开展奠定了良好的基础。

生物信息学研究方法探讨 第7篇

生物信息学 (Bioinformatics) 是在生命科学的研究中对生物信息进行采集、处理、存储、传播、分析和解释等的科学;它通过综合运用生物学、计算机科学、信息技术和多种方法揭示大量而复杂的生物数据所赋有的生物学奥秘。生物信息学是21世纪生命科学和自然科学的重大前沿领域之一。生物信息学的内涵非常丰富, 主要内容是:基因组信息学 (Genome Informatics) 、蛋白质组学 (Proteomics) 、系统生物学 (Systems biology) 、比较基因组学 (Comparative genomics) 、计算生物学 (Computational biology) 、计算系统生物学 (Computational systems biology) 等;主要研究方向包括序列比对、蛋白质结构比对和预测、基因识别非编码区分析研究、分子进化和比较基因组学、序列重叠群装配、遗传密码的起源、基于结构的药物设计、生物系统的建模和仿真等。现在已经进入了以生物信息学为中心的后基因组时代。如何发现数以亿计的ACGT序列数据中包涵的丰富而复杂的信息?如何揭示基因组中大量生物信息控制有机体发育的复杂机制?生物信息学海量数据和复杂背景导致面临严峻的挑战, 其研究需要运用多种生物信息学方法和技术。

2 生物信息学的主要研究方法

2.1 动态规划算法和启发式方法。

Richard Bellman最早提出动态规划这一概念表述通过遍历寻找最优决策解问题的求解过程。动态规划算法可有效解决那些可分解为重复子问题并具有最优子结构的问题。生物信息学中序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性, 常采用动态规划算法加以解决, 这种算法在序列长度较小时适用;而对于海量基因序列比对一般采用启发式方法效果更好。启发式方法在解决问题时是一种利用过去经验规则进行发现、选择行之有效的方法, 如BALST和FASTA等著名算法。

2.2 聚类分析。

是大规模基因表达谱目前广泛使用的统计技术, 最近又发展了一种机器学习方法———支持向量机。聚类通过把目标数据放入少数相对同源的组或“类”里。分析表达数据:通过一系列的检测将待测的一组基因的变异标准化, 然后成对比较线性协方差;通过把用最紧密关联的谱来放入基因进行样本聚类。多维等级分析是一种在二维Euclidean“距离”中显示实验样本相关的大约程度。

2.3 机器学习方法。

是研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能的方法。机器学习方法的应用已遍及专家系统、自动推理、模式识别、计算机视觉、生物信息等领域。机器学习方法在生物学数据处理, 如DNA微阵列和基因表达以及相关数据的分析中有重要作用;机器学习的具体方法神经网络、概率图模型等在生物信息学研究中也大量运用。

2.4 非参数统计。

不受由参数所决定的特定分布的限制而适用于任意分布, 这类统计方法称为非参数统计 (non-parametric Statistics) 。在生物信息学研究工作中, 经常有大量数据资料不易判定或不符合所要求的分布, 需要采用非参数统计方法, 具体如非参数回归方法以及极值统计方法等。用非参数统计法处理生物信息数据资料时不考虑资料的分布类型, 直接用样本数据的符号、大小顺序号、综合判断划分的名次和优劣等级等。

2.5 建模和仿真。

随着大量而复杂的生物信息数据的累积, 需要采用系统建模和仿真的方法, 从整体上揭示其发展变化的规律。其研究内容包括生物系统的模拟、系统稳定性分析、系统鲁棒性分析等。微分方程、随机过程、离散动态事件系统等方法在生物系统建模与仿真中得到广泛应用。现在生物系统模型辨识所需要的数据量往往十分巨大, 实验代价是目前系统建模主要困难, 系统建模和仿真方法也需要不断创新与发展。建模方法论、模型的简化、仿真基本方法、分布建模与仿真等在生物信息学研究中具有重要作用。

2.6 序列分析软件包。

GCG序列分析程序威斯康星软件包、Omiga基于PC机的序列分析工具、Mac vector:macintosh计算机集成序列分析软件、DNASTAR的Lasergene序列分析软件、非平台依赖性的生物序列分析工具、Staden软件包、多用户序列分析系统、分子生物学软件、FAS-TA3程序软件包、Genotator注释序列数据、低价位的凝胶分析系统、NCBI网页公用资源、Matinspector程序、计算机辅助的基因鉴定、网络计算、整合数据库、模型和算法的对生物信息学研究工作已经形成有力支撑。

2.7 建立生物信息数据库。

建立各种类型高标准、高质量的生物信息数据库是开展生物信息学研究的重要基础。生物信息一级数据库的数据都直接来源于实验原始数据;二级数据库是在一级数据库基础上针对特定目标进一步整理形成的。如核苷酸顺序数据库 (GENBANK) 、Protein Data Bank (PDB) 、氨基酸顺序数据库 (SWISS-PRO) 、酵母基因组数据库 (YEASTS) 、美国种质保藏中心 (ATCC) 、美国专利局数据库 (USPO) 等为研究奠定了重要基础。生物信息学研究还经常用到序列对位排列、同源比较、进化分析等方法。

3 生物信息学的新兴研究方法———大数据分析

Big Data“大数据”其本质是信息爆炸时代对数据的核心价值再挖掘, 被认为是继云计算、物联网之后IT产业又一次颠覆性的技术变革。维基百科定义:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”I B M把大数据概括成了三个V, 即大量化 (Volume) 、多样化 (Variety) 和快速化 (Velocity) 。“大数据”具有数据量大、种类多和速度快等特点, 涉及互联网、经济、生物、医学、天文、信息等众多领域。传统的数据库不能处理数TB数据, 也难以对高级别的数据分析提供有力支持。而大数据技术采用大规模并行处理的方式, 将负载切割成更小的任务后并行处理。大数据意味着规模极大的分析量、高速处理千万亿字节的结构化数据以及非结构化数据的能力。中国工程院院士李国杰认为:“科技界应高度关注大数据研究这一新的发展方向, 从大数据应用中发现挑战性的科学问题, 推动以大数据为基础的第四科学范式, 促进形成新型交叉学科:网络数据科学。”“各种非结构化的数据又增加了大数据的复杂性。”随着各种基因组测序技术的突破、人类基因组工程测序的完成和Internet的普及, 出现了大量的生物信息数据库, 如DNA数据库中的核酸序列公共数据量以每天106bp速度增长, 生物信息迅速地膨胀成数据的海洋。日益庞大的生物信息数据量的有效挖掘和充分利用至关重要。适用于生物信息学研究的大数据具体分析方法包括大规模并行处理 (MPP) 数据库、海量数据存储、海量数据挖掘、图像视频智能分析、分布式文件系统、分布式数据库、云计算平台、可扩展的存储系统等。大数据及分析方法是生物信息学的新兴研究方法, 对生物信息学研究将产生巨大而深远的影响。

参考文献

[1]滕宇, 梁方楚.动态规划原理及应用[M].陕西:西南交通大学出版社.2006.

[2]王雪松, 程玉虎.机器学习理论、方法及应用[M].北京:科学出版社, 2009.

[3]非参数统计方法[M].陕西:西南交通大学出版社, 2010.

[4]王红卫.建模与仿真[M].北京:科学出版社, 2002.

[5]姜奇平.大数据时代到来[J].互联网周刊, 2012, 1, 20.

[6]贾晓丰.基于物联网的大数据量实时信息交换策略研究[J].电子政务E-GOVERNMENT, 2011 (4) .

生物信息学专业规划的理念与实践 第8篇

生物信息学是1991年左右才在文献中出现的 (美国国立医学图书馆——NLM生物医学文献数据库——Medline中1993年才在正式文献中出现) 。该学科雏形可以追溯到20世纪50年代, 1956年在美国田纳西州盖特林堡召开了首次“生物学中的信息理论研讨会”。1987年, 林华安博士正式把这一领域称为生物信息学 (Bioinformatics) 。到20世纪末期, 随着分子生物学与计算机技术的迅猛发展和数据资源急剧膨胀, 迫使我们必须摆脱手工劳动的束缚, 转而寻求强有力的工具去组织它们。与此同时, 蕴藏在这些生物学数据资源中的生物学规律已无法继续沿用传统手段以人脑来加以分析和归纳, 因此人们同样需要寻求强有力的工具。

生物信息学正是通过它独特的桥梁作用和整合作用, 以数学、信息学和计算机科学为主要手段, 以计算机硬件、软件和通信网络为主要工具, 对浩如烟海的原始数据和纷繁复杂的生命信息进行存储、管理、注释、加工、解读。生物信息学对21世纪的生命科学和医学科学的发展具有非凡的推动作用, 是当今生命科学的重大前沿领域之一。

生物信息学的发展可以分为以下3个阶段:

第一阶段, 前基因组时代。早在1962年, 美国的Pauling和Zuckerkerkandl就将DNA序列的变异与其生物进化联系起来, 从而开辟了分子进化的崭新研究领域。20世纪60年代, 美国建立了蛋白质数据库;1964年Davies开创了蛋白质结构预测研究。1970年, Needlman和Wunsch发表了序列比对算法。美国洛斯阿拉莫斯国家实验室1979年就建立起Genbank数据库;欧洲分子生物学实验室 (EMBL) 1982年就已经提供核酸序列数据库的服务;日本也于1987年开始提供DNA数据库服务。

第二阶段, 基因组时代。标志性工作包括基因发现和识别、网络数据库系统的建立和交互界面的开发等, 建立和发展了表达序列标签数据库以及电子克隆。

第三阶段, 后基因组时代。标志性工作是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。

二生物信息学的学科性质

生物信息学到底应归属于生物学范畴, 还是属于以计算机为中心的信息领域, 是生物信息学科体系所无法回避的问题。字面上理解“生物信息学”是“生物”加“信息”的交叉学科。广义地说, 生物信息学通过对基因组的研究, 获取、加工、储存、分配、分析和解释相关生物学数据的应用范畴。这一定义包括了两层含义, 一是对大量数据的收集、整理与服务, 也就是如何管理好这些数据;另一层是从中发现新的规律, 也就是用好这些数据。前者表明“生物信息学”是以研究生命科学为对象的“信息学”, 研究重点在于分析工具的发展、数据库的建立与使用者接口的开发。后者则强调整合、分析数据库中的生物信息, 寻找致病基因, 预测基因的功能等。是利用生物信息学技术, 解决生物学问题的学科, 因此它是“生物学”的一种, 或称之为“信息生物学”。实际上, 我们可以认为这两个方面的内容属于生物信息学包含两个层次的内涵。具体地说, 生物信息学发展出精致的算法或完善的分析方法使我们能更好地利用数据进一步开展疾病相关基因寻找, 蛋白质结构和功能预测, 分子进化等研究;生物信息学的最终研究目标是为了破译隐藏在DNA序列中的遗传语言规律;在此基础上归纳、整理与基因组遗传信息释放的数据, 认识蕴藏于其中的有关生命代谢、发育、分化和进化的规律。例如, 就疾病而言, 生物信息学有助于系统地理解导致机体功能异常的生理机制, 并从而得出科学的治疗方案;从而为人类疾病的防治提供崭新的途径。就生物进化而言, 生物信息学有助于系统地解释生物进化中从微观分子到表观个体水平的基本规律, 从而使人类更清醒地给自己在自然界中定位, 科学地认识和改造自己的未来。

三发展生物信息学教育的意义

过去人们对生命的认识有很大的局限性, 对生物学的认识仅仅停留在观察上。到了19世纪, 达尔文发表“物种起源”之后, 生物学开始总结出有重大哲学意义的普遍规律。此后, 孟德尔发现了遗传学规律, 沃森和克里克发现DNA双螺旋结构以及核酸是生命本质, 为生物学发展奠定了坚实的基础, 从而生物学正式摆脱了那种仅靠观察和比较的方法, 发展成为一门实验科学。伴随着2l世纪后基因组时代的到来, 生物学的重点和潜在的突破点已经由20世纪的试验分析和数据积累, 转移到数据分析及其指导下的实验验证上来。

人类科学研究史表明, 科学数据的大量积累将会导致重大的科学规律的发现。例如, 对数百颗天体运行数据分析导致了开普勒三大定律和万有引力定律发现;数十种元素和上万种化合物数据的积累导致了元素周期表发现;氢原子光谱学数据积累促成了量子理论的提出。生物学确实有非常重要的问题等着我们去解决, 比如脑信息学、生命起源, 这些重要问题就像当初20世纪初期遗传学家面临的问题, 看着染色体却不知道要用怎样的技术去解开基因的谜。最重要的遗传学上的突破, 是发现如此复杂的生命居然只是由四种不同的脱氧核糖核苷酸 (A、T、C和G) 按照特定的编码规则串联成的脱氧核糖核苷酸串 (DNA) , 其中却蕴藏着生物体中所有的结构信息和控制信息, 着实让人诧异。借鉴历史的经验, 有理由相信, 当今生物学数据的巨大积累也将导致重大生物学规律的发现。[1]

放眼世界, 一些发达国家在生物信息学上已先行一步, 争相投入巨资, 争取通过生物信息研究与开发获得知识产权。中国科学家正联合起来, 共同推进中国生物信息学的研究和发展。充分利用网络上大量免费的数据资源, 去发现新线索、新现象和新规律, 关键在于迅速培养一批在数学、信息科学、计算机科学以及分子生物学方面均有造诣的跨学科人才。[2,3,4]

四生物信息学人才的培养

进人21世纪, 全国高校都按照“基础扎实、知识面宽、能力强、素质高”的人才培养要求开展了新一轮专业课程体系改革。生物信息学既是一门学科也是生物领域研究的工具, 其课程教学内容符合当前课程体系改革中人才培养“厚基础、宽口径”的要求。首先, 生物信息学是一门交叉性、平台性学科, 其研究的内容相当广泛, 涉及计算机科学、数学、信息学、统计学、生物学、物理学等众多学科, 能培养学生从整个自然科学的高度和不同角度分析问题的能力。其次, 生物信息学发展日新月异, 知识不断更新, 学习生物信息学有利于学生了解自然科学研究进展和方向。最后, 生物信息学也是一种研究工具, 学习和掌握这门工具为今后从事生物、医药、农业、环境、食品领域的研究提供了新的研究手段和途径。

目前, 生物信息学在我国尚处于起步阶段, 对研究人员要求很高, 需要生物大分子结构和功能方面的背景知识, 需要扎实的应用数学或统计学知识, 还需要精通计算机。但我们面临的实际情况是大部分从事生物学研究的人不熟悉计算机, 而从事计算机科学的人员多数又缺乏对生物学的了解。尽管知道生物信息学及其重要性的计算机科研人员为数不少, 但对于计算机学科如何与生物学进行有效的融合尚未给予足够的思考与研究。[5]

新世纪国家与国家之间的经济、科技实力的竞争从本质上讲是人才的竞争, 人是一切科学研究的主体因素, 离开研究者的创造性思维, 科学也就无法进展。生命信息学对从事其研究者提出更高的要求, 不但要具有广博的知识, 更要具有在此基础上进行比较、创新、归纳以及上升为理论高度的科学研究能力;同时还要求研究者具有敢于突破前人的气魄, 即高素质的复合型通才。他们能够将自然科学与社会科学沟通起来发展生物信息学教育、培养综合性高水平的生物信息学专门人才必将为我国的学科和产业的发展注入强大的动力。

五课程体系

课程体系是学校教学工作的中心环节, 同时也是人才培养的模板。在某种意义上, 有什么样的课程体系就能培养什么样的人才。加强知识能力和素质的培养, 提高学生创新意识和创新能力是21世纪人才培养的基本要求。

培养生物信息学专门人才是发展生物信息学的关键所在, 现阶段交叉学科人才培养工作中要明确学习动机和实际需求的关系。专门人才的培养可以从本科、硕士、博士三个层次展开。本科层次课程体系设置中, 要在短短的本科学习的4年时间内既要达到坚持基础, 强调技能, 拓宽专业口径, 但又不增加学生的学习负担, 有利于学生个性发展, 还要充分体现生物信息学交叉学科的特点, 对整个课程体系的规划尤其重要。

值得注意的是, 这些课程的教学内容必须按照生物信息学学科内容的要求设计, 有增有略, 有所综合, 在保证知识体系必备性和衔接性的同时, 避免填鸭式的教学方式。让学生有更多时间关注自身感兴趣的研究方向, 培养学生向以兴趣出发的主动学习方向发展。专业课程体系设置在学科人才培养成功与否中起着决定性作用, 国外一些高校课程设置值得借鉴, 如美国加利福尼亚大学洛杉矶分校的生物信息学专业课程设置, 包括专业先导课程 (Premajor) 和专业课程 (Major) 两个模块, 每个模块规定了最低学分数和必修课程要求, 同时又留给学生很大的选课自由度。

研究生的培养规划强调培养跨领域之人才。由于生物信息学多学科交叉特点, 学生招生面应尽可能广泛, 可以是数学、信息、物理、化学、计算机、生物等专业, 这既有利于学科融合, 又可以防止学科过于朝单一方向发展。在课程设计上, 根据学生背景, 兼顾高校和研究所现有研究领域。比如针对数学和计算机背景的学生, 开设生物类课程的必修课;而针对生物背景的学生, 则开设系统的数学和计算机课程的必修课。研究生层次的培养还需要与其他学科的研究领域和产业相结合, 及时掌握研究方向, 提高研究成果转化力。

六教学内容和手段

在教学内容组织方面, 除了要注意对各门课程间的内容协调外, 还要注意到生物信息学在理论研究和应用研究处于不断的发展完善中, 同时随着新的应用领域和新问题的发现, 也不断地渗透到生物信息学领域, 进一步增加了其多学科交叉融合的深度和广度。因此在教学工作中必须紧跟学科发展方向, 随时进行知识更新, 了解最新的前沿动态, 掌握新方法, 将最新的知识和方法教给学生。在高年级本科生和研究生交叉学科课程中增加案例分析, 可以在很大程度上弥补交叉学科人才培养缺乏系统性的问题。在教学中鼓励学生进行探索式学习, 培养其终身学习的能力和创新意识, 正是生物信息学教学的特点。[6]

1 生物信息学给学生提供探索式学习的基础

用生物信息学培养探索式学习, 取代枯燥的教学模式。人类基因组爆发式数据的产生, 产生了生物信息学, 聚焦在对大量涌现的DNA和蛋白质数据的获取、储存、分析、建模中。科学的基本原则就埋藏在探索式的学习中, 探索是一个理解科学基本原理非常有效进程。探索式学习是学生直接从教室面向社会, 学生需要去解决他们在学校或者社会上遇到的问题。

科学基本原则埋藏在探索式学习中, 探索是一个理解科学基本原理非常有效进程。探索式学习是学生直接从教室面向社会, 学生需要去解决他们在家里, 学校或者社会上遇到的问题。用生物信息学工具, 学生可以得到真实数据, 并用这些工具去独立解决问题。在这个过程中, 学生实际上经历了从被动的学习到积极的学习, 再到有效的学习的过程。生物信息学课程强调理解, 推理和解决问题, 而不是纯粹地记忆词汇解释和运算规则。教师应该鼓励学生有针对性地利用计算机或其它工具。生物信息学在科学活动中通过新技术的运用来帮助老师和学生实现这个目标。

2 运用真实的数据去解决问题

学校只要有计算机和网络, 就可以免费获得大量可靠的教学资源。用生物信息学工具, 学生可以得到真实的数据, 更重要的是可以用这些工具去独立解决问题。在这个过程中, 学生实际上经历了从被动的学习到积极的学习, 再到有效的学习的过程。现在我们只是需要引导学生强烈的好奇心和求知欲, 就可以带领学生进入真实的科学世界进行探险, 把他们从教科书中带出来, 奔向科学的殿堂。

在课堂上整合生物信息学知识的目的是学生易于接触到真实世界。各种在线指南帮助学生和老师学习怎样利用这些工具去收集数据。一些尚未解决的问题, 如人类进化历史、系统发育树和种系起源等问题。这些问题会出现在学生的头脑中, 通过这些数据, 引导学生开展进一步的探索。这些技术的合理运用, 学生有能力进行相关的探索, 增加他们学习的动机, 并且与真实世界联系起来。在教室里就可以让学生都加入到过去只是老师才关心的领域。

3 理解完整的生物学概念之间的关系

生物信息学是一个很好的整合工具, 它可以起到穿针引线的作用, 把你所学的课程都联系起来。生物信息学提供了一个思路把你所学的主题都连接起来:分子生物学、遗传学、遗传疾病、进化、细胞生物学、植物学、动物学、微生物学等。而这些课程一直都是独立授课的, 尽管老师也会强调这些知识的统一性, 但学生还是很难将这些知识连接起来。生物信息在讲授分析和解释知识时, 产生一种学习环境。先将整个中心法则融会贯通, DNA和复制、RNA和转录、蛋白质和翻译, 然后再运用它去解决遗传疾病、生理和进化等问题, 从而激发学生将视线聚焦到这些内容上, 产生强烈的求知欲。学生可以很好地理解学习内涵, 极大地提高了把知识串接起来的能力。要提高学生在工作、学习和今后的科研工作中分析解决问题的能力, 培养复合型、交叉型人才, 提高学生综合素质进而提高就业竞争力。

参考文献

[1]罗辽复.从生物信息学到信息生物学[J].合肥学院学报 (自然科学版) , 2007, 17 (2) :1-9.

[2]Cattley, S., 2004.A Review of Bioinformatics Degrees in Australia, Briefings in Bioinformatics5 (4) :350-354.

[3]Koch, I and Fuellen, G.2008.A Review of Bioinformatics Education in Germany, Briefings in Bioinformatics.9 (3) :232-242

[4]Wei, L., Yu, J.2008.Bioinformatics in China:A Personal Perspective.Plos Computational Biology, 4.

[5]Zhong, Y., Zhang, X., Ma, J., Zhang, L.2003.Rapid Development of Bioinformatics Education in China.Journal of Biological Education37:75-79.

[6]钟扬.宏观生物学与交叉学科人才培养的理念与实践[G].//高校生命科学基础课程报告论坛文集.高等教育出版社.2008:17-19.

[7]http://www.bioinformatics.ucla.edu/courses.php.

生物信息学教学机房的管理与维护 第9篇

一、机房使用管理规章制度制定的必要性

能否做好机房管理和维护直接关系到计算机的使用寿命和机房运行费用, 甚至会影响到教学效果。制定一套合理规范的教学机房管理与使用规章制度, 营造一个良好的实验操作环境, 明确教学机房教辅人员、任课教师、学生的职责是生物信息学教学机房管理的一项重要内容。为确保生物信息学教学机房的日常正常运行, 教辅人员不仅要会维护计算机等多媒体教学设备, 还要会安装生物信息学软件和工具, 要有很强的责任心和技术能力来面对每天的机房管理维护工作。计算机故障是多种多样的, 教辅人员要不断地提高自身技术水平, 发生故障时要能够做到及时排除, 确保及时地为下一节课提供服务。硬件安全上要做好防止计算机病毒的工作, 注意定期查杀病毒, 软件使用上要及时更新生物信息学应用软件的最新版本。因此机房教辅人员不仅要经常关注计算机科技的更新, 还要关注各种生物信息学软件、算法和数据库的更新, 并要在实验平台进行测试, 保障软件的稳定性并确定软件更新后所需的计算机资源等, 以保障生物信息学教学的正常进行。任课教师应正确使用生物信息学机房设备和监督学生正确使用计算机设备。机房的软硬件保护得再好, 也会有百密一疏的地方, 如有学生恶意操作导致系统崩溃或器件受损将会严重影响教学。因此在生物信息学机房教学实践的基础上我们制定了《生物信息学教学机房管理制度》, 进一步明确教辅人员、任课教师和学生的责任。对学生上机更应该严加管理, 我们还制定了《学生上机守则》, 规定相应的处罚条例, 如严禁学生不经教师允许带个人软件上机或是擅自插拔电脑部件等等。

二、双操作系统和生物信息学软件的选择和设置

1. 计算机双操作系统的设置。

根据生物信息学专业课程教学的不同需求, 计算机需要安装Windows和Linux两套操作系统。我们机房每台电脑的硬盘为500G, 分为3个区, 100G为Windows系统区, 100G为Linux系统区, 300G为学生数据盘。由于生物信息学实验课经常用计算机跑运算程序或搜索大量的数据库, 而Windows7的操作系统本身的CPU资源消耗比较大[1], 我们统一安装为WindowsXP系统。Linux系统采用开源免费、桌面环境优越的Ubuntu系统[2]。在系统程序盘除了安装计算机的操作系统, 还安装了聚生网管软件、多媒体教学管理软件LanStar和生物信息学计算软件和工具。系统程序盘设置为只读盘;数据盘用来存储教学中做各类实验的数据, 设置为可读可写模式。这样的划分方式和设置模式可以最大限度地对系统应用程序进行保护, 也便于一旦计算机系统崩溃时利用网络克隆技术进行还原系统而不必担心覆盖学生的实验数据。

2. 生物信息学专业软件的选择。

生物信息学教学机房平日主要承担《生物信息学算法与实践》、《程序设计》、《计算机药物与蛋白质辅助设计》等近20门生物信息学专业理论和实践课。为了让生物信息学机房发挥最大作用, 必须正确选择实用的系统软件降低系统消费资源, 然后根据课程需要选择生物信息学专业应用软件。系统软件的安装包含数据保护功能软件如杀毒软件卡巴斯基和常用办公学习工具如微软的Office2007系统、Adobe阅读软件等, 还安装了Photoshop、Isisdraw等图像和图形处理软件。生物信息学应用分析软件的安装我们分为三类, 一类为开源免费软件, 如Python、R、BioPerl等, 一类为生物信息学商业软件, 如药物设计软件MOE、软件Matlab和中药化学数据库TCMdb等, 第三类是本校生物信息学科研课题组自主研发的软件, 如MACS[3]。另外还必须安装配置好Window和Ubuntu扩展平台操作分析工具Crywin, 利用Cygwin对常用的生物信息学数据分析软件如Sim4、Phred、EMBOSS、和ClustalW等进行重新编译计算[4]。

三、计算机系统和应用软件的快速安装

目前生物信息学本科生实验课使用的专业软件多达30多种, 而且像python、R等软件和数据库经常更新版本, 特色数据库的数据量爆炸式增长[5], 生物信息学软件维护的任务量也非常大。利用快速有效的安装软件不但可以大大减少教辅人员的重复劳动的工作量, 还可以及时保障教学课程软件的应用。

1. 利用网络克隆技术快速批量安装。

网络克隆技术是通过网络将一个磁盘的数据复制到另外的计算机的磁盘上, 可以选择安装的分区、软件等。教学机房的电脑的系统和软件配置相似, 采用数据保护卡中的网络对拷功能来安装新电脑和快速恢复故障计算机系统是非常有效的。利用网络对拷功能的前提是机房所有机器性能参数一致, 以一台安装好操作系统和应用软件的计算机作为母机, 通过局域网向其他各台子机拷贝进行批量安装。如果采购的计算机批次不同, 就必须按照批次选择不同的母机进行分别批量安装。比如我们生物信息学机房采购机器的4种不同批次, 安装和更新软件时就先选择4台不同批次的计算机作为母机装好, 然后分4批次来进行网络对拷安装, 安装好之后还需要进入管理员账号进行机器的重命名防止网络重名造成使用不便。如果不同批次的机器统一上传, 计算机的驱动软件不一致会导致计算机批量故障, 从而造成更大的工作量来修复计算机。

2. 采用硬盘对拷安装。

利用硬盘对拷技术是机房教辅人员常用的快速有效安装和恢复系统和软件的方法之一, 必须要先拆卸一台安装好的硬盘接在需要安装和恢复的计算机上, 设置好双硬盘的数据进行安装。在进行硬盘对拷时很容易犯的错误是搞不清楚哪个盘是源盘, 哪个盘是目标盘, 特别是两个盘大小分区等情况都一样时, 就更不好区分了。我们常用的办法是将源盘设置成主盘并挂接在ide0上, 将目标盘挂接在ide1口上, 然后进入bios设置, 将系统项的第一项设置成ide0启动, 或者C盘启动。这样进入克隆之后, 第一个盘为源盘, 第二个为目标盘, 这样就区分开了。

四、计算机系统和应用软件的维护方法

1. 利用硬盘保护卡保护系统维护。

采用硬盘保护卡来维护计算机机房普遍为高校计算机机房采用[6], 生物信息学教学机房采购了联想的品牌机, 厂商也为计算机配置了硬盘保护卡。即使部分采购计算机没有配置保护卡, 也可以再安装外置保护卡, 确保保护的型号保持一致。安装硬盘保护卡是为了保护计算机的操作系统和生物信息学专业应用软件, 硬盘保护卡的安装和使用较为简单, 使用前将保护卡插入计算机主机板的PCI插槽上, 开机只须将要保护的分区进行相应的设置, 它能保护计算机的系统分区不遭人为和计算机病毒的破坏, 并短时间内迅速恢复系统。通过硬盘保护卡机房教辅人员维护机器非常方便和省心。当学生的计算机系统发生问题时, 只要重新启动计算机, 就能立刻恢复到原有的正常状态。硬盘保护卡的使用大大减少了教学机房维护的工作量, 是教学机房维护的得力工具, 但硬盘保护卡安装后也会导致新的问题[7], 比如机器开机后发出长鸣声而显示器没有显示, 就是保护卡接触不良造成的或者保护卡上有灰尘, 需要将卡重新拔下擦拭干净后再重新安装一下才能解决问题。

2. 利用Windows注册表系统维护。

利用Windows注册表进行计算机的安全管理也是维护教学机房的一个重要方法, 特别是针对不安装硬盘保护卡的教师专用计算机。除了一般的计算机管理如进行备份、恢复、设置注册表禁用功能等可通过注册表的设置来实现。在特殊维护系统安全上Windows注册表可以实现实时监控木马病毒[8], 还可以在不受Windows系统的限制和木马等病毒的干扰下检测到从机器的内核到软件应用方面所有被隐藏和修改的注册表信息及其隐藏位置[9]。单台机器的windows注册表的维护安全性高, 操作容易, 无须网络畅通, 由于教学机房的计算机数量多, 可以在单台故障或断网的时候使用这个方法维护。

五、常见计算机故障的快速修复方法

生物信息学教学机房的教辅人员不仅要掌握计算机的系统数据的备份和恢复, 还要对临时出现的突发性故障进行诊断和排除。其实很多的故障并不是硬件上的损坏, 更多的是软件故障或使用不当造成的。下面总结了生物信息学教学机房的故障现象和排除方法。

1. 黑屏故障。

有的学生机在开机时显示器出现黑屏, 无法进行操作。故障原因可能有几个, 如果开机时听到机箱内部传出“长鸣声”, 可能是硬件保护卡接触不良, 如果是传出“嘟—嘟”的声音, 可能是显卡与主板的接口松了, 解决方法是打开机箱把显卡或者硬盘保护卡从主板插槽中拔出, 再重新插入主板插槽里, 注意要让卡与主板插槽间的接口紧密结合[10]。

2. 蓝屏故障。

有的学生机在开机时进入Windows系统后显示器出现蓝屏, 计算机无法正常响应出现的屏幕返回信息。故障原因可能比较多, 比如Windows因系统设置故障、软件故障、计算机硬件故障、驱动程序故障、网络故障等各种类型的故障产生了严重的错误, 引起Windows无法继续维持正常运行, Windows出于避免用户数据丢失及损坏计算机的考虑, 将自动停止运行并显示“蓝屏”错误信息。解决方法是可以进入安全模式进行检测, 如果安全通过则系统没有问题。大部分原因是驱动程序和系统文件冲突造成的, 将驱动软件卸载后重装就可以解决[11]。

3. 网络故障。

有的学生上机后无法联网, 学生无法共享他人资源。造成的原因有以下几种:网线的接头松动或网卡与主板的接口不紧密, 解决方法是插紧网线接口或把网卡重新拔插一次;计算机开机时显示网络重名导致网络不畅, 可能是通过网络克隆系统没有对被克隆的机器进行机器重命名的设置, 可以进入管理员模式重新配置后重新启动计算机解决。

六、机房环境的保养方法

生物信息学教学机房最重要的设备就是计算机, 对计算机的精心保养无疑是教学环节中一项重要工作。首先保障教学机房处于干燥通风且防止阳光照射的环境, 保障机房没有灰尘污染。若计算机的主板上的插卡与主板的接触处布满灰尘, 容易接触不良导致黑屏故障, 严重时开机烧坏板卡。若机箱电源内部布满灰尘, 开机时内部器件容易发生短路而烧毁电源。为保证教学机房不受灰尘损坏, 一般需做到一个月清洁一次计算机的外壳、键盘等外部设备和桌面, 一个学期清除一次机箱内部的灰尘。解决方法是用吹风机的冷风吹去积灰机箱内的灰尘, 再用毛刷轻轻掸去吹不掉的积灰。其次要保障机房环境的温度和湿度在合理的范围内, 如果温度过高, 机器长时间使用导致内部温度更高从而导致内部器件运行不稳导致死机, 同样机房内的湿度过高或过低也会导致内部器件受潮而腐蚀, 从而导致短路硬件受损计算机无法使用。因此机房内配有专用空调来保障机房的内温度和湿度, 并要注意及时通风散热。

数据挖掘技术在生物信息学中的应用 第10篇

生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科。生物信息学的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律,读懂人类基因组全部DNA序列,认识人类自身,揭示遗传、发育和进化的联系。生物信息学必将大大丰富和发展现有的物理学、生物学、化学、数学、计算机科学、信息科学和系统科学的理论和方法,从而推动学科群的发展,成为自然科学中多学科交叉的有活力的、有影响的新领域。相对于其它日渐成熟的学科来说,对生物信息学的研究才刚刚开始,但是它以巨大的发展潜力吸引着世界各地的科研工作者。可以预见,继电子信息技术之后的下一个科技革命将由生物信息技术领头。生物信息学成果的应用也会产生巨大的社会效益和经济效益,国际上已经出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计、基因工程药物、生物芯片、代谢工程与化学工程密切相关。可以说整个生物信息学研究主要就是进行知识发现和数据挖掘,而且几乎所有已知的知识发现和数据挖掘方法已应用到了生物信息学的研究当中,取得了丰硕的成果。

1 数据挖掘技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是20世纪90年代中后期兴起的一门跨学科的综合研究领域,它包括数据库系统、统计学、机器学习、可视化和信息科学。其任务就是要从数据中发现模式或规律,预测发展趋势,为决策者提供信息等。数据挖掘的方法有许多种,较常用的方法有:决策树方法、神经网络方法、统计分析方法、模糊数学方法和可视化技术等。

数据挖掘的系统结构,如图1所示。其主要成分有生物数据库、数据库或数据仓库服务器、生物学知识库、数据挖掘引擎、模式评估和图形用户界面。

2 数据挖掘在生物信息学中的典型应用

可以说整个生物信息学研究主要是进行数据挖掘,是数据挖掘技术应用到现实世界的最佳场所,而且几乎所有已知的数据挖掘技术都已应用到了生物信息学的研究当中,取得了丰硕的成果,这里特别指出生物信息学中数据挖掘的几个具体领域。

2.1 生物序列的比较和相似性分析

序列比较是生物信息学中最基本也是最重要的操作,通过序列比较可以发现生物序列中的功能、结构和进化的信息。一般的,序列决定结构,结构决定功能。通过比较生物序列,可以发现它们的相似性。研究序列相似性的目的之一是通过相似的序列得到相似的结构或相似的功能。当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。序列比较的基本操作是序列比对(Allignment)。两条序列之间的比对是这两条序列中各个字符的对比排列。最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。打分矩阵是序列比较的基础,选择不同的打分矩阵将得到不同的比较结果。针对核酸序列的打分矩阵有等价矩阵、BLAST矩阵、转换一颠换矩阵等;针对蛋白质列的打分矩阵有等价矩阵、遗传密码矩阵、疏水矩阵、PAM矩阵、BLOSUM矩阵等。

序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法、Smith.-Waterman算法和SIM算法等。

2.2 基因组序列信息分析

基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结构是长期演化的结果,也是基因发挥其功能所必需的。利用EST(Expressed Sequence Tag)数据发现新基因、分析和预测各种功能位点,研究基因调控网络成为近几年重要研究方向。基因识别方法可以分成两大类:从头算方法(或基于统计的方法)和基于同源列比较的方法。从头算方法根据蛋白质编码基因的一般性质和特征进行识别,通过统值区分外显子、内含子及基因间区域;基于同源的方法利用数据库中现有的与基因有的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。

对于新DNA序列,搜索与已知蛋白质、EST相似的区域,发现编码区域。最理想的方法是合两大类方法的优点,开发混合算法。在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点,如基因的启动子(Promoter)、基因终止序(Terminator sequence)、剪切位点(Splice site)等,这些功能位点与基因的表达调密切相关。针对这些功能位点进行分析或预测也是DNA序列分析的重要内容。

2.3 蛋白质结构与功能预测

蛋白质的结构决定蛋白质的生物功能,因此在研究蛋白质时需要了解蛋白质的空间结构。虽然蛋白质结构测定方法有所改进,但仍不能满足实际的需要。核酸酶变性及重折叠实验,为从蛋白质的氨基酸序列预测蛋白质的三维空间结构提供了实验基础。直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能关系十分有用,这也将促进蛋白质工程和蛋白质设计的发展。

蛋白质结构预测主要有二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测是联系蛋白质一级结构到空间结构的纽带。预测的目标就是判断某一个片段中心的残基是Q螺旋,还是p折叠,或是其它。在二级结构预测方面主要有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法、人工神经网络方法以及支持向量机方法。理论上,蛋白质一级结构决定了蛋白质折叠后的空间结构,可以从氨基酸序列计算出自然折叠的蛋白质结构。但是由于蛋白质多肤链可能的构象是个天文数字,现有的计算能力不可能搜索整个构象空间,需采用一定的启发式方法寻找自由能最优或接近于最优的构象。在空间结构预测方面,主要有从头预测方法,折叠识别方法以及目前来说比较成功的同源模建方法。从蛋白质序列出发可以预测与蛋白质功能相关的特征如亚细胞定位、信号肤剪切位点、信号肤剪切位点的重新设计(用于优化剪切效率),信号锚(n型膜蛋白的N段部分)、与糖类相结合的糖基化位点、与转录后修饰有关的磷酸化和其他修饰作用、蛋白质的不同结合位点和激活位点等。

2.4 基因表达数据的分析与处理

基因表达数据分析是目前生物信息学研究的热点和重点。目前对基因表达数据的处理主要是进行聚类分析,将表达规律相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。所用方法有相关分析方法、层次聚类方法、自组织映射神经网络、主成分分析方法,进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药作用下表达模式的变化,阐明一些基因对另外一些基因的调节作用。利用聚类分析的结可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性。通过多重列比对操作,在各个基因序列的上游区域寻找共同的启动子。虽然聚类方法是基因表数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发现新的分析方法以发现基因之间复杂的、非线性的关系。近年来新方法不断地被应用于阵列表达数据的处理,其中支持向量机方法以其独特的优势被大多数研究者所接受。

2.5 可视化工具和遗传数据分析

基因的复杂结构和序列模式通常可以通过各种可视化工具以图、树、方体和链的形式展现,可视化的结构和模式促进了模式理解,知识发现和数据交互是发展有力的数据可视化方法和工具。大规模基因表达数据挖掘另一重要方面,已经用简单图形显示提供聚类结果的途径,对大规模基因表达原始数据的可视化并链接的标注过的序列数据库,可为基因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控并建立模型。可视化因此在生物信息学的数据挖掘中起着重要的作用。

3 结论

基因组测序计划把生物技术带入了一个以数据为核心的时代。计算机科学和生物技术的结合产生了生物信息学这一新兴的学科,其主要目的就是专门针对生物学数据进行数据挖掘,以期从中找到能够解释各种生命现象的规律。在若干生物信息数据挖掘领域,充分利用生物数据资源,利用或者改进已有的数据挖掘方法,或者发展新的方法,解决生物问题。

生物信息学是知识发现和数据挖掘技术应用到现实世界的最佳场所。庞大的生物信息对数据挖掘技术提出了许多颇具挑战性的问题,同时提供了广阔的机遇。随着数据挖掘技术的进步和生物信息研究的不断深入,它们两者将会不断地相互渗透,越来越紧密的结合。

参考文献

[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001:21-55.

[2]王东龙,李茂青.基于遗传算法的数据挖掘技术应用[J].南昌大学学报,2005(1):1-3.

[3]郝柏林,张淑誉.生物信息学手册[K].上海:上海科学技术出版社,2000:12-22.

[4]胡永钢,须文波.数据挖掘在生物信息学中的应用[J].生物信息学,2004(3):1-3.

生物信息学生物技术 第11篇

实验对象:南通第一初级中学初二学生;学习内容:义务教育课程标准实验教科书《生物》八年级(上、下册);样本大小:等组实验,每组50人左有;实验结束后,请资深老师出卷,有针对性进行测试,对实验组和对照组的考试成绩和论述题成绩进行了统计分析。

结论

1.基于学案和信息技术的个性化学习模式有助于提高学生的学习成绩

从本实验可以看出,实验班和对照班在实验前,无论是计算机还是生物成绩等方面都没有明显的差异,而在生物期末考试的成绩比较中,实验班的期末考试成绩和本班初一生物的期末考试成绩相比,平均分高出6.81分,优秀率高出12个百分点,p<0.05,差异显著;可以看出,因为没有采用本模式进行教学,对照班在实验前和实验后的生物成绩没有发生变化,P>0.05,差异不显著;从实验班和对照班的期末生物成绩的比较可以看出,实验班的平均分高出对照班5.62分,优秀率考出12个百分点,p<0.05,差异显著。可见,基于学案和信息技术的个性化学习模式有助丁学生拓展知识、开发思维,能提高学生的生物成绩。

2.基于学案和信息技术的个性化学习模式有助于提高学生分析问题解决问题的能力

通过对实验班和对照班期末考试的论述题得分的分析可以看出实验班的学生在灵活性较强的论述题方面得分率较高,一共33分的论述题,实验班高出对照班平均分高于4.4分,及格率高出对照班13个百分点,优秀率实验班58%,对照班仪仅为19%,实验班比对照班高出近40个百分点,P<0.05,差异性显著。由此可见,基于学案和信息技术的个性化学习模式能使学生在知识的迁移能力加强,提高了学生分析问题和解决问题的能力。

3.基于学案和信息技术的个性化学习模式有助于学生养成自主学习的学习习惯

期末考试结束后,对实验班的部分同学,就本模式在生物教学中的使用进行了访谈,通过访谈看出,基于学案和信息技术的个性化学习模式能让学生学习生物的兴趣得到提升,进而使学生养成自主学习的学习习惯。

4.基于学案和信息技术的个性化学习模式能促进学生个性的充分发展

农业院校生物信息学教学模式探索 第12篇

一、教学目标及内容

由于生物信息学是一门新兴学科, 其理论及相关分析工具发展迅速、不断更新, 在课程教学目标和教学内容上也在不断变化。我认为对于当前农业院校生物技术专业的培养目标和要求是让学生理解掌握生物信息学相关的一些基本理论、实验技术及实践操作, 以核酸序列及蛋白质序列的实际分析为主要侧重点, 着重培养学生的实践能力, 使他们能适应今后工作学习的需要。据此, 确定了以下的教学内容:教学内容共36学时, 分为理论基础和上机实践两部分, 理论课中穿插实例示范, 共24学时。理论教学内容包括:生物信息学绪论、生物信息学的生物学基础、生物信息数据库及其检索、序列的基本信息分析及比对、分子系统发育分析、蛋白质结构预测及分析、组学技术及信息学分析;上机实践共12学时, 内容包括:常用生物数据库的查询与搜索、核酸序列的分析方法实践、多序列比对和系统发育分析、蛋白质序列分析及空间结构预测、DNA序列中基因结构预测分析。在理论授课中介绍与农业相关生物信息数据库及应用, 在实例分析中选用本校教师相关研究结果作为数据来源, 拉近学生与知识点的距离, 提高学习兴趣, 使学生认识到学习本课程的意义, 通过讲练结合使学生掌握相关实践分析能力。

二、教学材料

1. 教材的选择。

生物信息学目前仍处于飞速发展时期, 尤其是随着各种新技术、新理论及组学的发展, 涉及到的学科越来越多。当前生物信息学专著及教材层出不穷, 但中文版书籍中影印国外原版教科书和翻译书籍仍占很大比例, 这类书籍中, 专著专业性过强, 而教材又多是针对生物信息学专业的学生或“一本”的学生编写的, 难度较大, 并且各自侧重点不同, 并不适合作为一般的农业院校的生物信息学教材。笔者在教学过程中先后使用了由钟扬等编写、高等教育出版社出版的《简明生物信息学》及由肖浪涛主编、中国农业出版社出版的全国高等农林院校“十一五”规划教材《生物信息学》作为主要的参考教材。但是, 在教学实践中笔者感到《简明生物信息学》由于出版时间较早 (2001年) 已不能满足实际教学工作的需要, 书中的很多内容都已更新, 很多网站页面也已重组或失效, 而近年被广泛使用的一些著名生物信息学软件亦未涉及。而《生物信息学》一书偏重理论知识介绍, 实例分析及操作应用偏少。因此, 笔者根据本校专业建设需要及学生水平编写了适用于本校学生使用的简明教材。教材中理论部分主要参考上述两本教材, 并进行了简化, 降低难度, 舍去算法、模型等专业性较强的章节;实践部分参考薛庆中等主编、科学出版社出版的DNA和蛋白质序列数据分析工具 (第2版, 2010年) 一书, 并附具体实例, 最终形成理论部分简明易懂, 实践部分易学易用的实用型教材。

2. 生物信息学相关数据库及软件的选择。

生物信息学发展迅速, 相关生物信息数据库及生物信息软件数量不断增加, 版本不断更新, 这为生命科学相关研究提供了极大便利, 但同时也为《生物信息学》课程实践部分的教学带来了挑战与压力。例如要分析一条蛋白质序列的分子量、等电点、氨基酸组成等信息, 我们可以使用DNAMAN、Bioedit、DNAStar、Vector NTI等本地软件分析, 也可以使用ProtParam、SAPS等网络在线程序分析。在有限的教学时间内, 如何选择数据库及高效易用的生物信息学分析软件也是教学中一个重要的问题。通过参考相关生物信息学分析的书籍及近年文献, 综合考虑数据库及软件的通用型、易用性及本校学生的英语水平、计算机操作水平, 结合教学目标及内容, 我们选择常用的核酸序列数据库Gen Bank、蛋白质数据库PDB等, 软件方面选择DNAMAN、Bioedit、Clustal W、MEGA、Primer Premier、Ras Mol等常见的生物信息学离线分析软件及整合于NCBI、EXPASY、PDB等网站上的在线分析软件开展实践教学, 而其他软件在课堂上只做简单介绍, 具体操作方法作为辅助资料供学生自学。这样学生在有限的学时内可掌握更多的分析内容, 达到“高效”的教学目的。

三、教学方法

1. 及时更新完善多媒体教学资料。

生物信息学课程理论知识较抽象, 实践操作多, 与计算机、互联网联系紧密, 内容更新快, 当代大学生已习惯并乐于使用各种多媒体途径获取信息, 这些特点决定了其非常适于进行多媒体教学。为此, 我们根据教学内容开发制作了一套多媒体教学资料并及时更新完善。教学多媒体资料包括Power Point课件和Flash动画, 课件注重知识的层次性、联系性, 将理论基础、实验技术操作流程等较抽象的生物信息学知识通过大量图片形象地展示给学生, 从而提高学生的学习兴趣并加快学生对抽象知识的理解;动画的内容是利用屏幕录像软件将实例分析过程录像并配音, 最后转为Flash格式, 穿插在理论教学及实践教学过程中使用, 从而使学生在自己实践操作前先有一个形象的认识, 将理论知识与实践操作有机联系在一起。

2. 充分利用网络教学平台辅助教学。

生物信息学是一门以互联网为媒介、计算机为工具的学科。在教学中, 网络教学平台的使用在提高学生学习兴趣、增强师生互动、强化教学效果等方面起到了很好的辅助作用。利用网络教学平台, 教师可将课程课件、动画、分析工具、实践教学内容等共享给学生并及时了解学生学习动态, 学生可将实验报告、作业、学习问题及意见反馈给教师, 师生可以通过网络教学平台的论坛版块在课余就学习或实践中的问题进行讨论, 达到“教学相长”的教学目的。此外, 利用网络教学平台还可将课堂中未详细讲述的大量数据库、软件的使用过程及相关电子参考书、文献共享给学生, 有利于提高学生学习自主性并拓宽课程外延。

3. 边讲边练, 理论知识密切联系实践操作。

德国心理学家艾宾浩斯研究发现, 在学习和记忆过程中, 最初阶段遗忘速度最快, 随着时间推延, 遗忘越来越慢。因此, 为了让学生能牢固掌握所学知识及实践技能, 我们在教学中采取边讲边练的形式。对于理论知识, 我们采取课前提问、课中提问、小测验及实践操作过程中知识点重现等方式, 使重要理论知识在整个教学过程中多次出现, 增强学生对课程知识体系的系统认知并强化其对理论知识的记忆。对于实践操作, 我们采取案例式教学, 直接将实例分析穿插在理论授课过程中, 并在理论课后及时安排学生在计算机房上机联网操作, 如在讲授序列比对理论课时, 实例演示使用DNAMAN、Blast等软件进行序列比对的过程, 并在理论课后紧跟DNA-MAN软件使用、数据库搜索的实践操作, 这样既加深学生对理论知识的理解, 还有利于学生掌握实践操作能力。

4. 布置实践任务, 加强综合能力培养。

生物信息学教学强调学生的实践能力培养。因此, 在教学设计上, 我们将学生按4~5人分成小组, 通过学生自选或制定的方式布置特定实践任务, 要求学生以小组为单位, 利用本课程所学知识及技能完成任务并提交任务报告。例如, 在课程一开始讲授数据库时, 要求学生通过查文献、了解本校相关分子生物学研究内容并结合自己的兴趣选择特定基因, 围绕该基因, 在后续整个课程的学习过程中利用掌握的各种生物信息学分析方法对其进行序列查询、引物设计、序列比对、编码区分析、蛋白理化性质预测、保守结构域预测、结构预测、分子系统发育分析等操作, 过程中学生互相讨论、取长补短, 最终协作完成实践任务。这样既使学生较全面地掌握了课程内容, 同时又加强了学生分析问题、解决问题的综合能力。

四、考核办法

在课程考核方面, 本着生物信息学课程培养实践应用能力的教学原则, 为使学生真正掌握生物信息学的基本理论及实践操作, 我们改变了过去闭卷考试占主体或写课程论文的简单考核方式, 采取了过程考核、实践考核并结合考试考核的方式对学生的学习效果进行综合评价。考勤及口头提问占考核成绩的10%, 4次随堂测验占考核成绩的20%, 上机操作占考核成绩的20%, 实践任务作业占考核成绩的20%, 期末闭卷考试占考核成绩的30%。这样考核虽然过程复杂, 对学生及教师都带来更大压力, 但杜绝了学生平时不学, 期末突击, 忽视实践的现象, 学生必须注重平时的学习及实践操作才能顺利通过课程考核。这样的考核办法能够更客观准确地评价一个学生对课程的实际掌握情况。

随着生物信息学在农业各研究领域的广泛应用, 掌握生物信息学知识及分析能力已成为农业院校相关专业毕业生的必备要求, 生物信息学课程也必将在农业院校各相关专业建设中占据越来越重要的地位。通过本课程的教学实践探索, 学生学习主动性、实践操作能力、最终学习效果均得到提高, 笔者也积累了一定经验, 取得了一定的教学成效, 找到了一些适合农业院校的切入点, 但是课程教学中还有很多需要进一步完善改进的地方。生物信息学学科的快速发展, 也决定了本课程的教学模式必将是一个动态发展的过程, 相信随着对生物信息学学科的深入认识, 生物信息学课程教学模式也将不断完善, 形成自己的独特体系。

摘要:生物信息学是一门由生命科学、数学和计算机科学相互渗透形成的新型交叉学科, 其发展迅速、应用性强, 已成为生命科学研究者强有力的辅助工具。生物信息学课程在农业院校相关专业中的地位日益提高。本文作者结合自身教学实践探索, 针对生物信息学课程教学中存在的无合适教材、网络资料繁杂、教学内容陈旧、教学手段单一、考核模式简单等问题, 从课程的教学内容、教学方法、考核办法等方面进行了论述, 旨在为农业院校开展生物信息学课程建设奠定基础。

关键词:生物信息学,教学模式,探索

参考文献

[1]钟扬, 张亮, 赵琼.简明生物信息学[M].北京:高等教育出版社, 2001.

[2]肖浪涛.生物信息学[M].北京:中国农业出版社, 2006.

[3]王禄山, 高培基.生物信息学应用技术[M].北京:化学工业出版社, 2008.

[4]胡娜, 常军, 徐玲.生物信息学教学改革与探索[J].安徽农业科学, 2010, 38 (3) :1588-1589.

上一篇:业务敏捷下一篇:智能化变电站技术简析