4.Ortholog(直系同源): 具有共同祖先和相同功能的同源基因(无基因复制事件)称为直系同源。直系同源基因由于物种分化事件产生,它能反映物种之间的进化关系。
5.paralog(并系同源): 并系同源基因是由于基因(重复)倍增事件产生的相似序列。 6.Xenolog(异同源): 由于染色体的横向转移而产生的相似序列。
7.global alignment(全局比对):全局比对是对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。全局比对适用于相似度较高且长度相近的序列。
8.local alignment(局部比对):在某些部分相似度较高,而其他部位差异较大的序列。 9.p-value(P值): 从某一总体中随机选样,根据随机试验中某一抽样事件属于该分布的概率范围,可计算这一随机事件属于该分部的概率,即误差造成的概率,一般用P值表示。P值越小,随机事件造成的概率越小。
10.E-value(E值或期望值):是序列比对中代表随机匹配可能性的一个数值。代表了随机匹配概率造成的相似性的概率,即,目的片段与搜索获得的片段随机配对的可能性。它的数字越接近于0,这两个片段随机配对的可能性就越小。 11.fasta format(FASTA序列格式):最基本的、普遍的序列格式。第一行描述符开始“>”字符,程序行包含序列,用于序列分析程序。 12.PSI-blast(位点特异的迭代BLAST):PSI-BLAST为检测蛋白质之间的关系提供了遥远的手段。第一次BLAST搜索后,利用结果中最相思的序列重新构建PSSM,然后再使用该矩阵进行第二轮BLAST搜索,再调整矩阵,搜索,如此迭代,直到找出最佳搜索结果。 13.Sensitivit(敏感度):找到相关序列的能力。真阳性序列数目/(真阳性序列数目+假阴性序列数目)。敏感度越高,找到相关序列越多,但假阳性出现频率也越高。 14. Specificity(专一度):排除不相关序列的能力。(真阴性序列数目)/(真阴性序列数目+假阳性序列数目)。专一度越高,排除的不相关序列越多,但漏掉假阴性的可能性也越高。敏感度越高,专一度越低。
15.progressive alignment(累进算法):累进算法是将最相近的序列进行多条序列比对,形成一个初始比对。然后使用动态规划算法逐步将教远缘序列添加到初始的比对中。序列的亲缘关系由一个两条序列比对所形成的系统发育树决定。 16.iterative alignment(迭代算法):基于最优化局部的思想。每一次优化过程就是迭代的过程。分为随机迭代算法和非随机迭代算法。 17.profile analysis(概型分析):在多条序列全局比对中往往可以发现十分保守的区域,将这些区域转化成多条比对,然后得到比对的计分矩阵。 18.Markov chain(马尔科夫链):通过构造里短随机过程,对未来事件的发生做出统计意义上的预测。马尔可夫模型中需要初始概率分布和状态转移矩阵。令状态转换矩阵为F,(fij)ijfij代表从状态X到状态X的概率。 19. Hidden Markov Model(隐马尔科夫算法):由马尔科夫链发展扩充而来的一种随机模型,是对马尔可夫模型的推广,使可观察到的状态是一个概率函数,而状态本身是不可观察的。隐马尔可夫模型可以被理解为一个双随机过程,一个是系统状态变化的随机函数,另一个是由状态决定输出的随机过程。 20. Clade(分化枝):系统发育树由外枝和枝组成,外枝代表节点或分类单元,枝代表节点或分类单元之间的关系。节点又可分为内部节点和终端节点。 21.Cladogram(支序图):以连续二叉分支呈现物种间亲缘关系的进化树称为分析图。支序图主要反映分支事件发生的相对顺序。 22. Phylogram(系统发育图):用枝长代表进化时间的系统树称为系统发生图或谱系图,系统发生图是引入时间概念的支序图。不仅强调分支事件,而且量化了变异程度和分歧时间。 23. rooted tree(有根树):可以显示出共同祖先,一个独特的路径从根节点到其他节点,方向进化的路径指示时间的流逝。 24.unrooted tree(无根树):表明进化关系没有透露的古老祖先的位置,不做假设,也不需要共同的祖先知识。 25.gene tree(基因树): 基于单个基因构建的系统发育树。 26.species tree(物种树):表示物种进化历史的树图。 27.JC model(Jukes-Cantor 模型):一种DNA序列的替换方法。相同的替换率,只能处理相当密切相关的序列,在DAB序列A和B之间的进化距离,PAB是观察到的距离。 28.UPGMA(非加权算数平均组对法):一种简单的系统树构建方法,它假定进化的速率恒定,因而从同一点分歧的外枝的长度是一致的。除了用于构建系统发育树外,RPGMA也用于序列比对和聚类。该方法首先要找出最相关序列,然后认为他们到共同分歧节点的距离相等,且等于他们之间距离的一半。然后将这两个序列看作一个序列,原来的分类单元就少了一个。一次循环直到树种包含了所有序列。
29.NJ(邻接法):与FM法非常类似,都是首先确定距离最近(或相邻)的分类单元对,然后为使系统树的总距离达到最小,不断循环将相邻分类单元合并成一个新的分类单元,最终建立相应的系统发育树.不同的是他们用于确定哪两个分类单元相邻的算法不同.FM法找两两之间最小的分类单元组合成对,而邻接法则比较哪两个分类单元组对后树的枝长总和。
(1)产生噪音的原因:DNA中四分之一的碱基是随机匹配的。
(2)减少噪音:从点阵中过滤掉随机匹配可以明显的降低点阵图的噪音。过滤是通过一个滑动窗口来比较两条序列。滑动窗口需要设定两个参数,窗口大小和阈值。窗口大小的设置是每次检查的相邻核苷酸数目,阈值是指在这些相邻氨基酸中需要完全匹配的最小字符数。由于组成DNA 的核苷酸只有4种,组成蛋白质的氨基酸有20种,所以点阵法进行DNA序列比对时,噪音过滤一般要选取较大的窗口为15,阈值为10。蛋白质选取2或3为窗口大小,阈值大小为2可以突出匹配区域。
(3)序列自身比对,与主对角线平行的为重复区域,与主对角线垂直的为反向重复区域。 (4)将RNA序列与此RNA的反向互补序列利用Dot-plot方法进行比对,若存在于主对角线垂直的线段,则此RNA存在发卡结构。
因为蛋白质序列由20种氨基酸组成,随机匹配的概率仅为5%。密码子具有简并性。一个氨基酸对应多个密码子,氨基酸序列相同,DNA序列可以是不同的。
(1)PAM250:代表了25亿年中250%的预期变化水平。(PAM1矩阵在每100个氨基酸位点上有1个可能被自然选择所接受的突变。)
BLOSUM62:在计算每一列氨基酸替换数目时,为了减少近缘成员替换数重复计算的影响,在计算模型中氨基酸替换之前,将这些近缘序列首先组合成一条序列。对于这条序列中氨基酸的替换取其平均值。那些相似度为62%的模块组合到一起用来构建BLOSUM62矩阵。(2) PAM BLOSUM 建立在一个进化的突变模型基础上的,认为没有明确的进化模型,是根据同一蛋白质家氨基酸的突变是一个马尔可夫过程,即每个族中序列保守的氨基酸模块中观察到的替换位点氨基酸的突变是相互的。 情况得到的。 统计了相关序列中的所有氨基酸位点 只关心保守的氨基酸模块,不关心序列的整体相似程度 建立在全局比对的基础上 建立在局部比对的基础上 建立在少量相似度非常高的蛋白质数据基础构建数据量相对要大的多且这些蛋白质序列上 之间相似度的差异非常大 低阶PAM矩阵适合用来比较亲缘较近的序列 低阶BLOSUM矩阵用来比较亲缘较远的序列 用于探索蛋白质进化轨迹 用于寻找蛋白质保守结构域
(1)线性罚分:罚分与空位长度成比例。 计算方法:Wx=gx
Wx=长度为x的空位罚分分值 g=空位罚分 x=空位长度
采用这种形式,长空位要比短空位罚分更大,无论空位是连续或是断开,只与空位的数量有关。
(2)仿射罚分:包含常数和比例两种因子。 计算方法:Wx=g+r(x-1)或者Wx=g*r Wx=长度为x的空位罚分分值 g=空位罚分 r=空位扩展罚分 x=空位长度
仿射发爱神对于新空位罚分大,其意义是虽然开放一个空位应该被重罚,但是是一旦某个空位被开放,扩展该空位应该得到较低的罚分。更倾向于连续区域里的插入或缺失(1个长度为k的要比K个长度为1的要好)。
(1)首先,执行一个标准的比对
得分最高的点击率是用来产生多序列比对。 一个PSSM(剖面)是从多序列比对的产生。 高度保守的残基,得到很高的分数 不保守的氨基酸残基,得到较低的分数
其次是进行相似性搜索,此时使用PSSM作为查询 2-4步骤可以重复直到收敛 迭代后不出现新的序列
(2)基本局部比对搜索工具、最广泛引用的生物信息学资源、提高搜索速度的同时,保留FASTA搜索的灵敏度。
(1)使用累进算法的多条序列比对程序的主要问题是最终的多条比对必须依赖起始的
两条序列比对,最先比对的序列在序列树上最相关。如果这些序列比对的很好,在起始比对中的错误就会很少。然而,这种算法在序列之间关系越远时,错误就越多,而且这些错误还将在多条比对中扩散,并且以后的计算过程无法校正这些错误。第二个问题是需要选择合适的计分矩阵及空对罚分。由于Clustal使用Affine罚分系统,大片段的插入或者缺失现象会对结果有着极大的影响。
(2)迭代算法中的非随机迭代算法可以通过不断使用动态规划法重排来解决这个问题。
同时对这些亚类群进行比对以获得所有序列的全局比对。其目的是提高整体比对计分值,如所有对的记分之和。
CpG岛是基因组上富含连续未甲基化的CG碱基对区域,对于基因的识别发挥着重要的作用。从给定序列s(长度为L)中分别取长度为了l(l<<L,长度一般在几百
k个碱基)、起始位置为k+1(0<<k<<L-l)的连续子序列s,假设
k,具有正值的s就是skSk1Sk2Skl,对每一个子序列计算得分Score(sk)
可能的CpG岛,在此基础上预测CpG岛的位置。
(1)趋同性意味着在序列比对中一系列的替代的位点(如A转换为T)并不一定是实际
的一次性替换的(可能A转换为C,C转换为G,G最后转换为T)即中间可能包括多次替换、颠换等。
(2)DNA序列的比对可以用Jukes-Cantor模型(JC69)和Kimura模型(K80)来进行
计算;蛋白质序列可用PAM和JTT两个模型来计算。其中JC69模型中转换和颠换被认为概率是一样的,而在K80模型中认为转换的概率更大一些。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务