无参照基因组的SNP分型新算法 -- iML
发布人:郭垒 发布时间:2012-06-11 动态浏览次数:273
新一代高通量测序技术的出现使得在基因组信息极度匮乏的非模式生物上实现大规模低成本的SNP分型已成为可能。目前已有的SNP分型算法大多需要已知基因组信息,而在无参照基因组情况下,欲实现SNP的精准分型仍面临诸多算法上的挑战。实验室首先通过一系列数据模拟分析,揭示了重复序列是导致无参照基因组情况下SNP分型准确率不高的重要因素;进而提出了一个基于混合泊松/正态分布模型的de novo SNP分型新算法(iML),iML可有效屏蔽重复序列对分型的干扰,基于模拟数据和实际测序数据的分析结果显示,iML的分型准确率明显优于已有算法。
文章:Dou J, Zhao X, Fu X, Jiao W, Wang N, Zhang L, Hu X, Wang S & Bao Z. (2012) Reference-free SNP calling: Improved accuracy by preventing incorrect calls from repetitive genomic regions. Biology Direct. 7: 17.