摘要:本文将蛋白质功能预测定义为典型的LPU问题。针对有很少正例的LPU算法存在的不平衡或过拟合问题,提出了基于最近邻和凸组合理论的创建人工正例扩充正例集合的方法,同时使用一类支持向量机获取初始最可能的负例,通过迭代两类支持向量机将分类超平面移到一个合适的位置,由交叉验证获得代表性的负例,从而改进了典型LPU算法学习最优分类器的过程。针对酵母基因组数据的实验表明:我们的算法在很少正例的功能类上的预测性能有显著提高,在其他类上的性能也有一定的改善。
关键词:蛋白质功能预测 支持向量机 lpu
单位:国防科学技术大学计算机学院 湖南长沙410073 湖南农业大学信息科学技术学院 湖南长沙410128
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社