核糖核酸分析化学论文提纲

2022-09-06

论文题目:基于机器学习的RNA分子二级结构预测研究

摘要:越来越多的研究表明,RNA(核糖核酸)除了传递遗传信息和参与蛋白质的合成外,还参与很多重要的生物学过程,而且还存在着大量功能未知的RNA分子。RNA分子的功能不仅依赖于它的序列还依赖于它的三维空间结构,因此,要深入理解RNA功能需要确定它们的三维空间结构。确定RNA的结构在实验上主要采用X射线晶体衍射、核磁共振和冷冻电镜等技术,但由于RNA的不稳定性,目前通过实验直接测定出的RNA三维结构的数目十分有限。为了充分使用海量的序列信息,弥补已知序列与已知结构数目之间巨大的差距,越来越多的研究人员采取计算机模拟和计算的方法进行RNA三维空间结构预测并得到广泛的应用。这些预测方法基本上都是建立在RNA二级结构已知的基础上,因此,它们预测的准确性依赖于二级结构的准确性。另一方面,RNA二级结构本身对于理解RNA的功能也有很大帮助。目前确定RNA二级结构虽然有一些实验方法,但普遍使用的还是理论预测。目前常用的RNA二级结构预测方法主要基于最小自由能原理或同源序列比较以及两者的综合。然而,这些传统的方法目前遇到的困难是,预测精度还不是很高,特别对于长链的RNA分子,对于那些结构中包含有假结的分子预测更困难。本文将介绍我们在解决该问题开展的研究工作。近年来随着机器学习以及深度神经网络等方法的发展和进步,这些方法在各种领域得到广泛的应用。深度学习擅长发现高维数据中的复杂结构,被广泛应用于图像和语音识别,预测潜在的药物分子的活性,分析粒子加速器数据,预测DNA突变对基因表达和疾病的影响,检测癌症等等。本文主要研究利用深度学习方法提高RNA二级结构预测的精度,并进一步研究RNA二级结构折叠路径问题。主要工作如下:(1)提出了一种耦合LSTM模型和U-net模型的深度学习模型2dRNA来预测RNA分子的二级结构。该方法只需输入目标RNA的序列,不需要使用其他的特征信息或者是同源家族多序列比对等信息。在有234个RNA的ArchiveⅡ测试集上测试结果显示,2dRNA的预测准确性明显高于目前广泛使用的方法,平均精确度PPV和灵敏度STY都达到0.9以上,对于长链RNA分子也能够进行很好的预测。在假结的预测上,相比其他方法,2dRNA也能准确地预测出更多的假结。(2)在上述耦合深度学习方法的基础上,结合迁移学习,提出了预测RNA二级结构预测的长度依赖深度学习模型2dRNA-LD,使RNA二级结构预测准确性进一步提高。我们使用了更大的数据集bpRNA训练2dRNA模型,训练数据达到了10814条RNA,覆盖了大多数RNA类型。为了能在这些数据中更好的学习,我们使用了网格搜索方法对模型进行了超参数的搜索,针对神经网络层数,学习率等多个参数总共训练了 320个不同的模型,并从中选出了最好的5个模型。进一步,针对数据的长度将训练数据分为不同的长度区间并进行迁移学习,得到了基于长度的模型2dRNA-LD。在bpRNA测试集上测试表明,2dRNA-LD能够进一步提升2dRNA的预测准确性。(3)目前虽然有很多RNA二级结构预测的方法,但是还没有探究RNA二级结构折叠路径的方法。我们从这个角度入手设计了一套深度强化学习的算法2dRNA-fold来研究这个问题。2dRNA-fold根据给定的RNA序列,通过一步一步选择残基配对直到形成最终的二级结构。在学习训练的过程中,我们还搭建了一个强化学习gym环境RNAWorld,该模拟环境包含了二级结构和三级结构部分。我们对上述方法都搭建了对应的网站:http://biophy.hust.edu.cn/new/2dRNA。此外,我们还将蛋白质和RNA结构预测用到的直接耦合分析算法应用到神经网络中,通过计算不同网络层节点之间的相关性,对关联性强的节点增加跨层连接,相比原始的缓慢训练过程,能够明显加速训练。

关键词:编码RNA;RNA二级结构测;RNA折叠路径;机器学习;神经网络;深度学习;强化学习;直接耦合分析

学科专业:理论物理

摘要

Abstract

1 绪论

1.1 引言

1.2 核酸分子二级结构预测

1.3 深度学习与神经网络

1.4 本文的研究内容及章节安排

1.5 本章小结

2 基于深度学习的RNA二级结构预测

2.1 原理与方法

2.2 结果与分析

2.3 本章小结

3 改进的RNA二级结构预测模型

3.1 原理与方法

3.2 结果与分析

3.3 本章小结

4 RNA二级结构最短折叠路径预测

4.1 原理与方法

4.2 结果与分析

4.3 RNAWorld环境的实现及使用

4.4 本章小结

5 使用DCA改进神经网络

5.1 原理与方法

5.2 结果与分析

5.3 本章小结

6 全文总结与工作展望

6.1 本文工作总结

6.2 下一步工作展望

致谢

参考文献

附录3 2dRNA+DB在测试集ArchiveⅡ上的详细结果

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:我国旅游电子商务发展论文提纲下一篇:课堂教学效率提高研究论文提纲