千人智库官方二维码

首页  >   千人智库 > 学术进展 > 信息科学
使用核SVM和分割PSSM预测凋亡蛋白亚细胞位置
时间:2021-04-01 09:00:00来源:汉斯出版社
提交需求
提要:研究表明,凋亡蛋白的功能与亚细胞位置密切相关。

细胞凋亡在生物体的生长发育及新陈代谢中起着非常重要的作用,而凋亡过程的紊乱可能与许多疾病如肿瘤、自身免疫性疾病的发生有直接或间接的关系。凋亡蛋白是指与细胞凋亡有关的蛋白质。研究表明,凋亡蛋白的功能与亚细胞位置密切相关。因此对凋亡蛋白亚细胞位置的正确定位,能帮助我们理解凋亡蛋白功能、细胞凋亡机制和药物开发。

然而,通过传统的生物实验方法来确定凋亡蛋白的位置既费时又费力,难以满足现在的科研需求。因此,在汉斯出版社《计算机科学与应用》期刊中,有学者开始借助计算机及其相关知识开发了许多有效且可靠的计算方法来替代或协助传统生物实验。

近年来,大量机器学习方法被开发用于识别不同的凋亡蛋白亚细胞位置,通常包括三个步骤:第一,从凋亡蛋白序列中提取包含不同种类蛋白质的信息作为凋亡蛋白亚细胞定位的特征向量,如信息增益(Incrementof Diversity)、位置特异性评分矩阵(Position Specific Scoring Matrix,PSSM)、伪氨基酸组成(Pseudo Amino Acid Composition,PseAAC)、氨基酸组成(Amino Acid Composition,AAC)和二肽组成(Dipeptide Composition)。第二,将得到的特征向量输入到分类器中进行预测分类,在凋亡蛋白亚细胞定位中使用的分类器有协变判别函数法、模糊k-近邻、支持向量机(Support Vector Machin,SVM)、集成分类器等。第三,通过Jackknife检验、K折交叉验证和独立集检验对分类器性能进行评估,以证明所提出方法的可靠性。这些计算方法的使用可以大大加快凋亡蛋白亚细胞位置的研究。这些方法都是基于序列提取得到的特征,好的特征提取方法对预测凋亡蛋白亚细胞位置是至关重要的,它能帮助我们提高预测准确率。

在本文中,为了能够更加准确的对凋亡蛋白亚细胞位置进行定位,我们考虑了凋亡蛋白序列的进化信息和序列信息。我们首先从序列中获取含有进化信息的PSSM,然后以一个分割比例将PSSM矩阵按行分割为两个子矩阵,并以此构建一个新的特征,我们称之为分割PSSM(Segmentation PSSM,SePSSM)。接下来我们对凋亡蛋白序列引入7种物化性质,并将此方法得到的特征与SePSSM特征进行线性融合。最后,我们将融合后的特征输入到含有四种不同核函数的支持向量机中,并通过Jackknife检验验证该方法的有效性。

首先,基于矩阵分块的思想从PSSM中提取Se PSSM特征,然后将Se PSSM和7种理化性质得到的特征融合构建凋亡蛋白序列的特征表示方法,通过实验结果可知,对PSSM进行平均分割比不分割或其他的分割比例的预测效果更好。最后,ZW225和ZD98两个数据集在RBF核的SVM分类器上分别进行预测分类,分别得到了94.6%和96.9%的总体准确率,这已高于大多数已有的凋亡蛋白亚细胞定位算法,这表明我们所提出的方法是可行的。鉴于我们使用的数据集为不平衡数据集,数据集类中数量存在较大差异,因此在下一步研究中,我们将考虑对数据集进行采样处理或构建一个平衡的数据集来对凋亡蛋白进行预测研究。

文章链接:https://doi.org/10.12677/CSA.2021.113073

标签
使用 svm 分割 pssm 预测 凋亡 蛋白 细胞 位置

版权声明:千人智库网系千人智库唯一官方网站,凡转载本网内容请注明来源与作者。

作者系本站编辑

评论详情

   暂无相关评论!
RSS订阅