引 言
蛋白质经历一个自发的“混乱圮有序”转变称为“折叠 / 解折叠 (folding/unfolding)”[1]。蛋白质的折叠实验表明,蛋白质的折叠行为可以粗略地分为两类,一类蛋白质折叠过程没有明显的中间态,被称作“二态动力学 (two-state kinetics)”蛋白,而有些蛋白质需要经过中间体的不断积累才能完成其折叠过程,被称作“三态动力学 (three-state kinetics) 或多态动力学(multi-state kinetics)”蛋白。蛋白质的折叠时间从 ms 到 h[2]量级,有的蛋白折叠时间甚至达到μs量级[3~5]。一个蛋白质在解折叠态时,是高度“柔软”的,有非常巨大的自由度数,可能的构象将是一个天文数字,但是当折叠到三维结构时,它又采取了唯一的天然构象。那么,蛋白质是如何如此快速地发现它的天然态的呢?1969 年,利文索尔(Levinthal)首先注意到了这个蛋白质折叠难题[6],并提出了著名的利文索尔佯谬(Levinthal'sparadox)[6]。我们举例简述这个佯谬的大意,假定一个由 100 个氨基酸残基组成的多肽,将有 99 个肽键和 198 个主链二面角,假定每个键角有 3 个稳定的构象,那么这个多肽总构象数目为 3198(≈1094)。这样,如果一个蛋白到达它的正确的天然构象是通过连续采样所有可能构象,采样时间是ns 或 ps 量级,那么它达到正确的天然构象的时间将比宇宙年龄还要长,而如此长的折叠时间显然是不现实、也是错误的。利文索尔佯谬的提出,引发了科学家对蛋白质折叠机制的探索。而是否有能力来预测蛋白质折叠速率,常常被用来检验一个蛋白质折叠模型[7~10]。蛋白质折叠机制问题的研究也驱动着折叠实验的进步。20 年前,实验工作者还被两个关键的问题所困扰,一是如何在快于 ms 的时间尺度上测量折叠事件,二是如何跟踪一个折叠单体。现在,激光温度跳跃 (laser temperature-jump) 技术[11]、单分子实验技术[12,13]等实验手段已经成熟应用。精确的蛋白质折叠动力学实验数据的积累,使得理论的、实验的和生物信息学的蛋白质折叠研究者迎来了前所未有的新机遇。1998年,Plaxco 和他的同事们[14]应用 12 个单体 (域) 蛋白质折叠速率的实验数据,提出了第一个蛋白质折叠速率预测的经验规则———相对接触序 (relative contact order,RCO),同年,Jackson 发表了一篇评论文章[15],收集了在此之前的所有蛋白的折叠动力学实验数据,包括超过40个单体(域)蛋白和几个二体蛋白。从此之后,对蛋白质折叠速率的预测值与实验值之间相关性的检验,被广泛地使用在蛋白质折叠的理论研究中[7~10,16~26]。2005 年,Maxwell等[27]构建了一个包含 30 个二态蛋白的折叠动力学标准数据集。也是这一年,Fulton和他的同事[28]建立了一个可以获取蛋白质折叠热力学和动力学数据的第一个 Web 数据库———蛋白质折叠数据库 (Protein Folding Database,PFD),该数据库于 2007 年发展为PFD2.0[29]。PFD2.0包含约 40 个蛋白和许多变体的折叠数据。2008 年,Ouyang 和 Liang[21]收集了一个包含80 个蛋白折叠速率的数据集,基于此数据集研究了几何接触 (geometriccontact)和折叠速率的相关性,此后,该数据集被多次引用[23,25,26]。2009 年,Bogatyreva 等[30]发表了一个包含87 个蛋白质和部分变体的蛋白质折叠动力学 Web 数据库———KineticDB(http://kineticdb.protres.ru/db/index.pl),这是迄今为止用于研究蛋白质折叠过程的包含数据最多、信息最完整的数据库。尽管此后 Guo 等[26]也收集了一个包含99 个蛋白质折叠速率的数据集,但该数据集存在照搬间接文献数据的问题,其中存在多个冗余和错误数据,且仅给出折叠速率一个信息。2010年,Chang 等[31]收集了一个当时较为全面的蛋白质折叠速率数据集(包含 95 个蛋白质),并在此数据集上,利用统计物理模型,得到了折叠速率与蛋白质氨基酸组成之间的关系,但该数据集在数据收集方面也存在类似 Guo 等[26]的问题,其中所列的数据也有一部分存在错误。如 1ADW 这个蛋白,其引用折叠速率自然对数值为 0.6[31],这个值是 Ouyang 和 Liang[21]给出的,而 Ouyang 和 Liang[21]所引该蛋白的原始实验文献是Reader等[2]的。Reader 等[2]的原文是这样描述的,"The folding of apo-pseudoazurin, a123-residue, predominantly β-sheet protein with a complex Greek key topology, has beeninvestigated using several biophysical techniques. Kinetic analysis of refolding using far- andnear-ultraviolet circular dichroism (UV CD) shows that the protein folds slowly to thenative state with rate constants of 0.04 and 0.03 min-1, respectively, at pH 7.0 and at15℃"。从这段描述不难看出,1ADW 在 15℃下折叠速率 (以 s-1为单位)的自然对数值应为-7.3和-7.6,分别对应于远紫外和近紫外圆二色光谱实验方法。另外,2010 年,Huang等[32]还依据 PFD 和 KineticDB 两个数据库关于变体折叠速率的记录,仔细核对了原始文献,构建了一个包含 467 个单变体数据的蛋白质变体实验折叠速率数据集,称为 F467[32]。本文从原始的实验文献出发,仔细查阅了实验条件和实验数据,总共整理得到了109个非冗余单体(或单域)蛋白质(多肽)的折叠速率动力学数据,称为蛋白质折叠速率数据集109 (protein folding rate dataset 109,PFRD109)。数据包括蛋白质名称、PDB 标识、结构长度、折叠速率、实验温度、折叠自由能、二级结构类型、折叠动力学类型、分子体积、分子表面积和相应的参考文献等10 多项参数。部分蛋白未能给出实验温度、折叠自由能等参数,原因在于 2005 年之前,实验文章并未要求一定要给出折叠动力学结果,直到 2005年 Maxwell 和他的同事建议给出这样的协议,故而他们的数据集称为折叠动力学标准数据集[27]。此外,我们还对 PFRD109 数据集做了一些初步的统计分析。期望本文的工作,能够为研究蛋白质折叠问题的理论工作者或生物信息学工作者带来帮助。
数据集的构建
主要以 Ivankov 等[33]、Ouyang等[21]及 Guo 等[26]所搜集的蛋白质折叠速率数据为线索,逐个查阅每个蛋白质的原始实验文献,通过蛋白质序列和空间结构数据的比较,去除冗余数据。共获得 40 个多态折叠蛋白质和 69 个二态折叠蛋白质,构成 PFRD109 数据集,分别列于附录表S1 和表 S2 中 (见本期网络版,http://www.cjb.org.cn)。
参数说明
PFRD109数据集分别给出了每个蛋白质的 PDB 标识、蛋白质名称、单体 (域) 所在的链、二级结构类、结构长度、折叠速率、分子表面积、分子体积、折叠自由能、折叠温度和原始数据的参考文献。其中,二级结构类由 SCOP1.75 数据库[34]找回。本文中所出现的“折叠速率”,均指线性外推到水中的“折叠速率自然对数值”。分子表面积和体积的计算使用Helix系统的在线服务(http://helixweb.nih.gov/structbio/basic.html),其中,分子表面积的计算采用 MSMS 算法[35],分子体积计算采用 VOLUME 软件[36],分子表面积和体积的计算中使用的所有参数均为默认值。需要注意的是,我们这里整理的折叠自由能并未区分是平衡的(equilibrium)还是动力学的(kinetic),但两者是存在差异的。因蛋白质的折叠速率和自由能依赖于温度,所以我们将对应的实验温度列出。
冗余数据
在整理的过程中,我们发现有些蛋白质在不同作者的文章中,所引用的蛋白质名称和原始实验文献均相同,但 PDB 标识不同,在仔细核对了这类蛋白质的序列和结构数据后,发现它们是冗余数据。这些蛋白质包括:1GV2[33,37]与 1IDY[21,37];1K9Q[21,38]与 1JMQ[33,39];1PKS[21,40]与1PNJ[33,40];1HZ6[17,41]与2PTL[21,27,33,41];SUC1[33,42]与1SCE[21,42];1FKB[21,43]与1FKF[27,33];1POH[33,44]与1HDN[21,44](这里另需指出的是,在Ouyang 和 Liang[21]的文章中,1HDN 和 2HQI这两个蛋白质的文献指向颠倒了);1L63[21,45]与 2LZM[17,45];1AVZ[27,33]、1SHF[17,46]与 1NYF[21,46];1RLQ[27,33]、1FMK[21,47]与 1SRL[17,48]。这些蛋白质名称相同、仅 PDB 标识不同的数据,是同源(或相同)蛋白,我们仅保留了最后的一个 PDB 标识蛋白质在我们的数据集中。在去除冗余数据时,我们特别注意到下面的事实,即在不同的测量折叠速率的实验中,测量的蛋白质片段相比于PDB 中具有准确结构的部分,常常由于实验设计而包含一些额外的部分,不同实验也会有所不同。这些部分对于蛋白质的稳定性没有影响。不过由于这些残基自身相互作用等因素,可能会影响到蛋白质的动力学,这在小蛋白中表现明显。例如近年来讨论很多的下山式折叠蛋白,蛋白质末端的两个残基影响蛋白质的折叠机制[49],这一选择也显然会影响基于氨基酸组成和序列的预测。于是我们在判断冗余数据时,是以动力学测量实验中的序列是否相同作为标准的。我们以 Src SH3 蛋白的三个不同引用 (PDB名称分别为 1RLQ[27,33]、1FMK[21,47]与 1SRL[17,48])为例来说明选择的过程。1RLQ 出现在Ivankov等[33]的文章中,其出处为 Maxwell 等[27]构建的数据集,仔细查阅文献[27],发现1RLQ指向文献[48],可以判定 1RLQ 和 1SRL 是同一个蛋白,1FMK 出现在 Ouyang 和Liang[21]的文章中,其出处也指向文献[48],但我们仔细查阅文献[48]后,发现 1FMK 原始出处应为文献[47]。1FMK和 1SRL 为 Baker 研究组在不同时期的工作,1FMK 为人类酪氨酸激酶 Src SH3 域,动力学测量实验中的长度为 57 aa[47],1SRL 为鸡的酪氨酸激酶 Src SH3域,动力学测量实验中的长度也为 57 aa[48],且两序列同源,所以我们保留了 1SRL 而剔除掉前两个。
特殊数据
1PGB_AB[21,50]与3GB1[27,33]分别是Ouyang 等[21]和Ivankov 等[33]的文章所引用的,蛋白名称为protein G,这两个引用的原始文献指向分别为[50]和[27]。二者的蛋白名称、序列和结构均相同,但是折叠类型不同,1PGB_AB 是多态,3GB1 是二态。Park 等[51]也指出,在高 pH值环境下,protein G 是一个二态折叠蛋白质,而在 pH 4.0 和 0.4 mol/L 的硫酸钠环境下存在中间态。鉴于以上原因,我们将这两个情形都列在我们的数据集中。另外,2VIK[52]在不同温度下的折叠类型不同,采用尿素(urea)变性实验时,在25℃下为多态折叠,速率为11.9,动力学折叠自由能为 9.5 kcal/mol,在 37℃下为二态折叠,速率为 6.8,动力学折叠自由能为5.9 kcal/mol,所以我们将此蛋白分别收集在二态和多态列表中。1PSE[21]与 1PSF[17,33],蛋白质名称、序列和结构均相同,但 Ouyang 等[21]和 Ivankov 等[17,33]分别引用的折叠速率相差较大,在 Ouyang 等[21]的文章中,数据原始文献指向是Bowers 和 Baker 未公开发表的结果[21],而Ivankov等[17]文章中未给出此蛋白质的原始文献,所以作为存疑数据将二者都保留下来。
折叠速率校对
在数据集的整理过程中,我们还发现,多态蛋白质1ADW、1HCD、1HEL 和 2ABD,在 Ouyang 和 Liang[21]的数据数据集中给出的折叠速率的自然对数分别为 0.64、1.1、1.25 和6.48,与原始文献核对,我们认为这些数据在 Ouyang 和 Liang[21]的文章中引用可能有误,我们将其校对为-7.6、 -4.97、 6.1和7.86。 蛋白质 1L2Y、 1PIN、 1VII、 2CRO、 2VIK 和2A3D,在 Ivankov 等[33]的数据集中给出的折叠速率的自然对数分别为 20.5、9.5、9.4、3.7、5.0 和 12.2,与原始文献核对,我们将其校对为 12.4、9.4、11.8、5.35、11.9 或 6.8、12.7。
统计分析
当前,生物信息学对蛋白质折叠速率的研究,主要集中在两个方面。一是寻找与折叠速率相关的各种生化参数或拓扑参数,进而对蛋白质折叠速率实现预测[7~10,16~26];二是寻找影响蛋白质折叠动力学的主要因素,进而实现对蛋白质折叠动力学类型的预测[19,22,33,53~56]。因此,我们针对 PFRD109 数据集,就这两个方面进行了一些参数的统计分析。
蛋白质链长
蛋白质链长是决定蛋白质折叠速率的主要因素之一,尤其是多态蛋白,其折叠速率与链长存在显著的负相关性。对于 PFRD109 数据集,69 个二态蛋白的链长与折叠速率的线性相关系数为-0.39,而多态蛋白则为-0.65。链长的自然对数与折叠速率之间存在更高的相关性,二态和多态蛋白相关系数分别为-0.52和-0.71。这些结果均列于表 1 中。蛋白质链长也是决定蛋白质折叠动力学类型的主要因素之一。如图 1,我们给出了区间间隔为 40 aa 的二态和多态蛋白链长相对频次分布图。可以看出,二态蛋白和多态蛋白的链长有显著的区别。69个二态蛋白的平均长度为 78 aa,下四分位数为 57 aa,中位数为73 aa,上四分位数为 96 aa。40 个多态蛋白的平均长度为 137 aa,下四分位数为 89 aa,中位数为 128 aa,上四分位数为 155 aa。其中,四分位数定义为一组数据从小到大排列后处于25% (下四分位)和 75% (上四分位) 位置上的值。2010年,Chang 等[31]利用统计物理模型,从推导折叠自由能出发,得到了一种折叠速率与蛋白质有效氨基酸组成之间的关系,发现折叠速率与蛋白质有效长度(effective length)之间存在显著的相关性。采用最优氨基酸类型集“LVWYCGSTDP”计算有效长度,进而比较预测折叠速率与实验折叠速率,得到0.84的相关性。本文中,我们在 PFRD109 数据集上检验了 Chang 等[31]的有效长度模型,结果表明,蛋白质有效长度的对数与折叠速率间存在显著的负相关性,对全部109个蛋白,线性相关系数达到-0.73。同时,我们用有效长度对二态和多态折叠蛋白进行差异性t检验,结果表明两类蛋白的有效长度差异显著(P=1.5×10-7)。我们在扩大的数据集上的结果,为 Chang 等[31]的有效长度模型在蛋白质折叠速率研究问题上的有效性提供了佐证。
分子表面积和体积
蛋白质的表面积和体积从空间结构角度给出蛋白质的大小尺度,从统计结果看(表1),分子的表面积和体积与折叠速率之间存在显著的负相关性。和蛋白质链长与折叠速率的关系相似,折叠速率对多态蛋白的依赖比二态蛋白更强。同链长一样,蛋白质的分子表面积和分子体积也在两类折叠蛋白间存在显著差异,二态蛋白具有更小的分子表面积和体积。值得指出的是,2008 年,Galzitskaya 等[54]用蛋白质的亲水表面积SA与同样体积(VA)的理想球体表面积之比定义致密性(compactness) Z,即Z=SA/(6 姨 πVA)2/3,在 75 个蛋白质的数据集上统计发现,多态蛋白要比相似大小的二态蛋白有更大的致密性(Z值更小),他们据此得到结论,致密性是决定蛋白质折叠机制的一个因素[54]。我们在 PFRD109 数据集上用分子表面积 SM和体积VM定义Z,统计结果表明,平均地看,多态蛋白的致密性比大小相似的二态蛋白的致密性稍大些(数据没有显示),但并不显著(95%的置信水平下t检验未通过)。蛋白质分子表面积和分子体积与亲水表面积和亲水体积之间是一个线性关系,所以上面两种致密性定义几乎无差别,我们和Galzitskaya 等[54]的差别仅在于数据量的增加,但我们在 PFRD109 数据集上的结果并不支持 Galzitskaya 等[54]的观点。
接触序
1998年,Plaxco 和他的同事们[14]在一个包含12 个二态蛋白的数据集上发现,一些小的二态蛋白的折叠速率相关到它们的天然拓扑,快折叠蛋白更趋于有更多的局域α螺旋结构,而慢折叠蛋白则趋于有更多的非局域β片结构,他们基于此提出了一个结构拓扑参数———相对接触序(RCO)。2003年,Ivankov 等注意到相对接触序与短肽和大的多态蛋白的折叠速率之间相关性很差,原因是相对接触序没有考虑蛋白质大小对折叠速率的影响,所以他们基于相对接触序,提出了绝对接触序(absolute contact order,ACO) 的概念[16]。我们也就这两个参数在PFRD109数据集上的表现作了一个统计,结果见表 1。从统计结果看,二态蛋白 RCO 与折叠速率负相关,而多态蛋白 RCO 与折叠速率几乎无相关性,这与 Ivankov等[16]的结论一致。无论二态还是多态蛋白,ACO 与折叠速率间都存在显著相关性。这也说明,蛋白质的大小是决定蛋白质折叠速率的主要因素之一。我们还分别统计了 RCO 和 ACO 在两类折叠类型间的差异性,t 检验结果表明,两类折叠蛋白的RCO值无差异( P=0.932),但 ACO 值存在显著差异 (P=3.8×10-5) 。 Capriotti和Casadio[19]曾以 RCO 和链长为参数,采用 SVM 分类算法对蛋白质的两个折叠动力学类型进行分类识别,所用数据集是2004 年 Ivankov 和 Finkelstein 搜集的[17],包含63 个蛋白。他们的结果认为,RCO 对于两类折叠的识别是有益的,尤其是将接触的范围扩大到非局域情形时[19]。但在 PFRD109 数据集上的统计,并不支持 Capriotti 和 Casadio[19]的这个结果。
转动惯量
Luo[57,58]认为蛋白质折叠是一个由许多步构象跃迁组成的自组织过程,也即蛋白质折叠的基本过程是一组构象态间的量子跃迁。Luo 的计算结果表明,蛋白质折叠速率反比例于所有参与跃迁的扭角转动惯量之和的平方根,折叠速率还与所有扭角转动惯量倒数之和的2次方成正比例[57,58]。2011 年,Zhang 和 Luo 给出了一个扭转振动的转动惯量计算模型[25],在 Ouyang 和 Liang 收集的数据集[21]上,对转动惯量的串联因子和并联因子与折叠速率的关系进行了检验,结果支持 Luo 的量子折叠理论。这里,我们依照 Zhang 和 Luo 的转动惯量计算模型[25],在PFRD109 数据集上统计转动惯量的串联和并联因子与折叠速率的相关性,结果列于表 1 中。我们看到,转动惯量的串联因子与折叠速率成正相关,而并联因子与折叠速率成负相关,在上面这些参数中,转动惯量与折叠速率存在最大的线性相关系数,对全体蛋白达到0.75。t检验结果还表明,转动惯量串联和并联因子可以显著地区分蛋白质的折叠动力学类型。我们在扩大的数据集上的检验结果,再次支持了 Luo 的量子折叠理论。
二级结构类
将PFRD109 数据集上给出二级结构类的 104 个蛋白质 (有 4 个二态蛋白和 1 个多态蛋白二级结构类不明确),按照链长和 4 类二级结构类对折叠速率进行统计,结果见表 2。可以看出:1) 无论是二态还是多态蛋白,折叠速率随链长的增加而减慢。2) 全 α 类蛋白的平均折叠速率最快,而α/β蛋白的平均折叠速率最慢。Ivankov 等[33]对此的解释是,全α类蛋白平均每残基有更小的接触数,结构上较为松散,致密性小,折叠快速;α/β蛋白平均每残基存在更大的接触数,结构上更为致密,所以折叠更为缓慢。我们的统计结果支持这一观点(不同结构类蛋白的致密性数据没有显示)。3)二态蛋白很少存在α/β结构,多态蛋白则较少为全α结构。
总 结
对蛋白质折叠机制的研究近年受到越来越多研究者的关注。我们整理了一个包含数据量大,且包含数据信息较完整的蛋白质折叠数据集———PFRD109,希望这个数据集对以后的研究工作提供有益的帮助。在本文中,我们对部分影响蛋白质折叠的参数进行了一些初步的统计分析,分析表明,蛋白质的大小,尤其是 “有效大小”[31]对于蛋白质的折叠速率有重要影响。另外,值得注意的是,由蛋白质的量子折叠理论获得的参数———转动惯量,与蛋白质的折叠速率之间存在显著相关性。蛋白质折叠的构象量子跃迁理论可能是理解蛋白质折叠机制的新途径。
论文下载,下载下来可不是把论文里边的名字换成你的就行了哦,这样是不对的哦,亲,一定要自己创作哦,因为期刊是要查抄袭的哦,多了解一下期刊的要求以及各地的评职标准吧。