Bio.SeqUtils.ProtParam模块
简单的蛋白质分析。
示例
>>> from Bio.SeqUtils.ProtParam import ProteinAnalysis
>>> X = ProteinAnalysis("MAEGEITTFTALTEKFNLPPGNYKKPKLLYCSNGGHFLRILPDGTVDGT"
... "RDRSDQHIQLQLSAESVGEVYIKSTETGQYLAMDTSGLLYGSQTPSEEC"
... "LFLERLEENHYNTYTSKKHAEKNWFVGLKKNGSCKRGPRTHYGQKAILF"
... "LPLPV")
>>> print(X.count_amino_acids()['A'])
6
>>> print(X.count_amino_acids()['E'])
12
>>> print("%0.2f" % X.amino_acids_percent['A'])
3.95
>>> print("%0.2f" % X.amino_acids_percent['L'])
11.84
>>> print("%0.2f" % X.molecular_weight())
17103.16
>>> print("%0.2f" % X.aromaticity())
0.10
>>> print("%0.2f" % X.instability_index())
41.98
>>> print("%0.2f" % X.isoelectric_point())
7.72
>>> sec_struc = X.secondary_structure_fraction() # [helix, turn, sheet]
>>> print("%0.2f" % sec_struc[0]) # helix
0.33
>>> print("%0.2f" % sec_struc[1]) # turn
0.29
>>> print("%0.2f" % sec_struc[2]) # sheet
0.37
>>> epsilon_prot = X.molar_extinction_coefficient() # [reduced, oxidized]
>>> print(epsilon_prot[0]) # with reduced cysteines
17420
>>> print(epsilon_prot[1]) # with disulfid bridges
17545
- 其他公开方法包括:
肉汁
protein_scale
灵活性
charge_at_pH
- class Bio.SeqUtils.ProtParam.ProteinAnalysis(prot_sequence, monoisotopic=False)
基类:
object包含蛋白质分析方法的类。
构造函数有两个参数。第一个是作为字符串或Seq对象的蛋白质序列。
第二个参数是可选的。如果设置为True,则氨基酸的重量将使用其单一同位素质量(每种元素最丰富的同位素的重量)而不是平均分子质量(每种元素所有稳定同位素的平均重量)来计算。如果设置为假(默认值)或省略,则IUPAC平均分子质量将用于计算。
- __init__(prot_sequence, monoisotopic=False)
初始化课程。
- count_amino_acids()
计数标准氨基酸,返回指令。
计算每个氨基酸在蛋白质序列中的次数。返回字典{AminoAcid:Number}。
返回值缓存在self.amino_acids_content中。随后的通话不会重新计算。
- get_amino_acids_percent()
包括在内是为了向后兼容性(DEPreCATED)。
- property amino_acids_percent
获取氨基酸含量(百分比)。
与count_amino_acids相同,它只返回Number占整个序列的百分比。返回{AminoAcid:percentage}的字典。
与废弃的get_amino_acids_percent方法不同,此属性返回0-100范围内的百分比。
- molecular_weight()
根据蛋白质序列计算MW。
- aromaticity()
根据Lobry,1994计算芳香度。
根据Lobry,1994计算蛋白质的芳香性值。它只是Phe+Trp+Tyr的相对频率。
- instability_index()
根据Guruprasad等人1990计算不稳定指数。
实施Guruprasad等人1990的方法,以测试蛋白质的稳定性。任何高于40的值都意味着蛋白质不稳定(半衰期短)。
参见:Guruprasad K.,Reddy B.V.B. Pandit M.W.蛋白质工程4:155-161(1990)。
- flexibility()
根据Vihinen,1994计算灵活性。
没有参数来更改窗口大小,因为参数特定于窗口=9。使用的参数经过优化以确定灵活性。
- gravy(scale='KyteDoolitle')
根据Kyte和Doolitle,1982计算重力(总平均亲水性)。
利用给定的疏水性量表,默认使用Kyte和Doolittle(KyteDoolitle)提出的原始量表。其他选项包括:Adorderin、AbrahamLeo、Argos、BlackMold、BullBreese、Casari、Cid、Cowan 3.4、Cowan 7.5、Eisenberg、Engelman、Fasman、Fauchere、GoldSack、Guy、Jones、Jurizer、Kidera、Miyazawa、Parker、Ponnuswamy、Rose、Roseman、Sweet、Tanford、Wilson和Zimmerman。
可以在ProtParamData中添加新的刻度。
- protein_scale(param_dict, window, edge=1.0)
通过任何氨基酸标度计算轮廓。
氨基酸等级由分配给每种类型的氨基酸的数字定义。最常用的尺度是疏水性或亲水性尺度和二级结构形态参数尺度,但也存在许多其他尺度,这些尺度基于氨基酸的不同化学和物理性质。 您可以设置多个参数来控制比例配置文件的计算,例如窗口大小和窗口边缘相对权重值。
WindowsSize:窗口大小是用于配置文件计算的间隔长度。对于窗口大小n,我们使用每一侧的i-(n-1)/2个邻近残基来计算残基i的分数。残基i的分数是这些氨基酸的缩放值的总和,可选地根据它们在窗口中的位置加权。
边缘:窗口的中心氨基酸的权重始终为1。默认情况下,其余窗口位置的氨基酸具有相同的权重,但可以通过将间隔开始和结束处残基的边缘值设置为0和1之间的值,使窗口中心的残基具有比其他残基更大的权重。例如,对于Edge=0.4且窗口大小为5,权重将为:0.4、0.7、1.0、0.7、0.4。
该方法返回一个值列表,可以绘制这些值以查看蛋白质序列的变化。 存在多种规模。只需将您的最爱添加到ProtParamData模块即可。
类似于expasy的ProtScale:http://www.expasy.org/cgi-bin/protscale.pl
- isoelectric_point()
计算等电点。
使用模块IsoelectricPoint计算蛋白质的pI。
- charge_at_pH(pH)
计算给定pH值下蛋白质的电荷。
- secondary_structure_fraction()
计算螺旋线、转角和薄片的分数。
根据Haimov和Srebnik,2016年; Hutchinson和Thornton,1994年; Kim和Berg,1993年,返回倾向于呈螺旋状、转弯状或片状的氨基酸分数列表。
螺旋中的氨基酸:E、M、A、L、K。氨基酸依次为:N、P、G、S、D。纸片中的氨基酸:V、I、Y、F、W、L、T。
请注意,在v1.82之前,该方法在声称返回(HSYS、Turn、Sheet)时错误返回(Sheet、Turn、HSYS)。
返回一个由三个浮点数组成的元组(Humble,Turn,Sheet)。
- molar_extinction_coefficient()
计算摩尔吸光系数。
假设半台北酸(还原)和半台北酸残基(Cys-Cys-键),计算摩尔吸光系数
- __firstlineno__ = 64
- __static_attributes__ = ('amino_acids_content', 'length', 'monoisotopic', 'sequence')