摘要:提出近似重复矢量(Approximate Repeat Vector,ARV)模型用于DNA序列冗余片段的描述.通过将数据生物信息学特征引入压缩预处理,并使用ARV矢量构造编码码本,提出了非对称DNA序列压缩算法BioLZMA-2.算法引入基于粒子群优化的Memetic改进方法CLIPSO-MA用于压缩码本的智能优化设计,有效提升了编码性能.在标准测试序列上的实验结果表明,BioLZMA-2可获得比现有DNA序列数据压缩方法更高的压缩率.
关键词:dna序列数据压缩 生物信息学 近似重复矢量 memetic算法
单位:浙江大学生物医学工程与仪器科学学院; 浙江杭州310027; 深圳大学计算机与软件学院; 广东深圳518060; 深圳市嵌入式系统设计重点实验室; 广东深圳518060
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社