当前位置:主页 > 理工论文 > 生物学论文 >

基于终身机器学习的蛋白质分类问题研究

发布时间:2024-04-08 01:00
  生物信息学渗透着生命科学的方方面面,如何利用计算机快速针对蛋白质进行分类一直以来都是计算机科学和生物信息学的热点研究问题。另外,对于蛋白质分类问题,如何进行有效地增量学习一直以来是研究的空缺,同时这也是终身机器学习算法的一个难点。本文基于终身机器学习的思想,针对蛋白质家族数据构建了两个可以进行有效增量学习的多分类模型,该模型扩展了终身机器学习的应用领域,为生物信息学中多分类问题的研究提供了新的思路。本文的主要研究内容和贡献如下:1.数据方面,本文针对PFam数据库中的蛋白质家族数据进行归类,为终身机器学习模型的研究提供了一个具有标注严格,去除冗余的蛋白质家族数据集。该数据集由于具有大量任务并且每个单独任务数据样本较少,十分适合进行终身机器学习模型以及任务关联发现的研究。并且本文利用多种方法分别从计算机以及生物学的角度构建氨基酸序列特征,该特征在本文提出的两种模型上均取得了很好的分类效果。2.算法方面,本文根据是否保留历史任务的训练数据分别设计了两种终身机器学习方法。本文通过对SVM多分类模型进行拆分,使其在子任务上可以选择更加合适的特征子空间,在保留历史任务训练数据的情况下可以进行有效...

【文章页数】:84 页

【学位级别】:硕士

【部分图文】:

图2-1自编码器结构

图2-1自编码器结构

对于数据模型的评估一般有三种方法,最简单的方式是把整个数据集分成训练集,交叉验证集和测试集,数据在训练集上进行训练,交叉验证集用来对训练时候的参数进行评估,最后在测试集上验证最终效果。这样的评估会由于交叉验证集和测试集的数据始终参与不到训练的过程中,因此具有一定的缺陷型,另外一种....


图3-1基于SVM的蛋白质家族分类流程图

图3-1基于SVM的蛋白质家族分类流程图

蛋白质家族分类问题是一个多分类问题,本章并没有采用传统的多分类算法,而采用了SVM算法投票的方式进行多分类,这主要有以下两个原因。第一,本文提出的算法不仅仅追求最终多分类较好的效果,还希望模型能够较好的支持增量学习,即在花费较小代价的情况下能够进行增量训练从而支持更多类别的分类。....


图3-2序列长度分布

图3-2序列长度分布

蛋白质中氨基酸序列的长度并不固定,然而机器学习模型要求样本表示为固定长度的向量,从字母序列到输入模型代表其特征的向量的过程就叫做特征工程。特征工程包括特征构建,特征融合以及特征选择。从字母序列中构建固定长度的向量特征的过程叫做特征构建,将不同种特征进行结合从而抓住更多维度上信息的....


图3-3氨基酸出现次数

图3-3氨基酸出现次数

每条氨基酸序列的氨基酸组成特征按照图3-4构建,氨基酸组成特征构建方法将不固定长度的氨基酸序列转变为一个长度为20维的向量FACC,向量中的每一个维度就代表这一个氨基酸在该序列中出现的频率,氨基酸组成特征氨基酸序列最基础也是最常用的特征,不同种类的蛋白质中含有的各种氨基酸的比例对....



本文编号:3948252

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3948252.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户6773f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]