实验室实验与生命科学论文提纲

2022-09-25

论文题目:机器学习辅助的肌酸酶的突变进化分析

摘要:肌酸酶在临床上常被用于测定肌酐以此来评估肾脏功能,在工业生产中也有不可替代的催化作用。但该原始蛋白酶为常温酶,即无法在高温环境下起到较好的催化作用,且其自然进化速度较慢。因此,在实验室模仿自然进化的关键步骤对蛋白酶合理设计序列突变,使其即使在高温条件下也能够具有较好的催化活性,即提高其热稳定性,是当前研究的重要方向。蛋白质空间结构的多样性是目前已知的对于序列热稳定性最直接的影响因素,而蛋白质序列又唯一确定其结构空间。因此,我们从序列出发,希望通过实验对序列中部分位点进行氨基酸突变,生成新的序列来提高其热稳定性。我们实验室在先前研究的一种无系统发育偏见的共识方法的基础上,获得了 18个与热稳定性相关的重要突变位点,每个位点需要突变的氨基酸已经确定,即每个位置只需选择突变或者不突变,因此共有218种选择,庞大的数据量难以仅靠人工实验测定其热稳定性值。而最新提出的利用机器学习辅助蛋白质突变进化的策略可以帮我们解决上述筛选瓶颈的问题。本文利用机器学习技术,通过对已标记序列,即实验室已测定热稳定性值的序列,进行编码后建立序列与热稳定性之间的映射模型,随后挑选合适的模型以及获得一系列组合模型来对未标记突变序列热稳定性进行预测。根据预测结果寻找预测值相对较高的突变体,并提交给实验室进行人工测序验证,最终帮助实验室获得了热稳定性显著提升的优质突变体,突破了工业和临床应用的限制。本文所用的序列数据均来自于合作对象上海交通大学生命科学学院实验室的最新观测数据。我们通过人工智能辅助蛋白质突变的技术帮助实验室寻找到了最佳突变体,为工业和临床提供了热稳定性显著提高的肌酸酶突变体,同时减轻了实验室筛选工作量,具有实践意义。在最终模型选择的方式上,不同于以往相关文献中,只依靠蛋白质性能预测模型在测试集上的指标评分来选择最优模型,本文创造性的利用了模型组合的方法。我们挑选了一些在测试集评分较高的模型作为组合的候选模型,通过真实的性能值来计算其组合权重,获得了一系列组合模型以及权重较高的重要模型,这些模型进一步提高了预测准确度,也为日后更好的预测蛋白质性能提供了新思路。

关键词:肌酸酶突变进化;热稳定性;蛋白质编码;建模预测;模型组合

学科专业:应用统计(专业学位)

摘要

Abstract

第一章 导论

1.1 研究背景与意义

1.2 文献综述

1.3 研究内容

1.4 创新点

1.5 结构安排

第二章 肌酸酶序列编码方式和建模算法

2.1 肌酸酶序列编码方式

2.2 肌酸酶序列建模算法

2.3 模型组合

第三章 肌酸酶实验数据分析与最终结论

3.1 肌酸酶数据介绍

3.2 肌酸酶序列编码及数据处理

3.3 肌酸酶序列与热稳定性的映射模型建立

3.4 模型组合及重要模型获取

3.5 实验验证与最终结果

第四章 总结与展望

4.1 总结

4.2 展望

附录A 附录中的表格

A.1 用于模型组合的备选模型

参考文献

致谢

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:语文课课改分析论文提纲下一篇:乡村旅游发展探讨论文提纲