Bio.SeqUtils.ProtParam模块

简单的蛋白质分析。

示例

>>> from Bio.SeqUtils.ProtParam import ProteinAnalysis
>>> X = ProteinAnalysis("MAEGEITTFTALTEKFNLPPGNYKKPKLLYCSNGGHFLRILPDGTVDGT"
...                     "RDRSDQHIQLQLSAESVGEVYIKSTETGQYLAMDTSGLLYGSQTPSEEC"
...                     "LFLERLEENHYNTYTSKKHAEKNWFVGLKKNGSCKRGPRTHYGQKAILF"
...                     "LPLPV")
>>> print(X.count_amino_acids()['A'])
6
>>> print(X.count_amino_acids()['E'])
12
>>> print("%0.2f" % X.amino_acids_percent['A'])
3.95
>>> print("%0.2f" % X.amino_acids_percent['L'])
11.84
>>> print("%0.2f" % X.molecular_weight())
17103.16
>>> print("%0.2f" % X.aromaticity())
0.10
>>> print("%0.2f" % X.instability_index())
41.98
>>> print("%0.2f" % X.isoelectric_point())
7.72
>>> sec_struc = X.secondary_structure_fraction()  # [helix, turn, sheet]
>>> print("%0.2f" % sec_struc[0])  # helix
0.33
>>> print("%0.2f" % sec_struc[1])  # turn
0.29
>>> print("%0.2f" % sec_struc[2])  # sheet
0.37
>>> epsilon_prot = X.molar_extinction_coefficient()  # [reduced, oxidized]
>>> print(epsilon_prot[0])  # with reduced cysteines
17420
>>> print(epsilon_prot[1])  # with disulfid bridges
17545
其他公开方法包括:
  • 肉汁

  • protein_scale

  • 灵活性

  • charge_at_pH

class Bio.SeqUtils.ProtParam.ProteinAnalysis(prot_sequence, monoisotopic=False)

基类:object

包含蛋白质分析方法的类。

构造函数有两个参数。第一个是作为字符串或Seq对象的蛋白质序列。

第二个参数是可选的。如果设置为True,则氨基酸的重量将使用其单一同位素质量(每种元素最丰富的同位素的重量)而不是平均分子质量(每种元素所有稳定同位素的平均重量)来计算。如果设置为假(默认值)或省略,则IUPAC平均分子质量将用于计算。

__init__(prot_sequence, monoisotopic=False)

初始化课程。

count_amino_acids()

计数标准氨基酸,返回指令。

计算每个氨基酸在蛋白质序列中的次数。返回字典{AminoAcid:Number}。

返回值缓存在self.amino_acids_content中。随后的通话不会重新计算。

get_amino_acids_percent()

包括在内是为了向后兼容性(DEPreCATED)。

property amino_acids_percent

获取氨基酸含量(百分比)。

与count_amino_acids相同,它只返回Number占整个序列的百分比。返回{AminoAcid:percentage}的字典。

与废弃的get_amino_acids_percent方法不同,此属性返回0-100范围内的百分比。

molecular_weight()

根据蛋白质序列计算MW。

aromaticity()

根据Lobry,1994计算芳香度。

根据Lobry,1994计算蛋白质的芳香性值。它只是Phe+Trp+Tyr的相对频率。

instability_index()

根据Guruprasad等人1990计算不稳定指数。

实施Guruprasad等人1990的方法,以测试蛋白质的稳定性。任何高于40的值都意味着蛋白质不稳定(半衰期短)。

参见:Guruprasad K.,Reddy B.V.B. Pandit M.W.蛋白质工程4:155-161(1990)。

flexibility()

根据Vihinen,1994计算灵活性。

没有参数来更改窗口大小,因为参数特定于窗口=9。使用的参数经过优化以确定灵活性。

gravy(scale='KyteDoolitle')

根据Kyte和Doolitle,1982计算重力(总平均亲水性)。

利用给定的疏水性量表,默认使用Kyte和Doolittle(KyteDoolitle)提出的原始量表。其他选项包括:Adorderin、AbrahamLeo、Argos、BlackMold、BullBreese、Casari、Cid、Cowan 3.4、Cowan 7.5、Eisenberg、Engelman、Fasman、Fauchere、GoldSack、Guy、Jones、Jurizer、Kidera、Miyazawa、Parker、Ponnuswamy、Rose、Roseman、Sweet、Tanford、Wilson和Zimmerman。

可以在ProtParamData中添加新的刻度。

protein_scale(param_dict, window, edge=1.0)

通过任何氨基酸标度计算轮廓。

氨基酸等级由分配给每种类型的氨基酸的数字定义。最常用的尺度是疏水性或亲水性尺度和二级结构形态参数尺度,但也存在许多其他尺度,这些尺度基于氨基酸的不同化学和物理性质。 您可以设置多个参数来控制比例配置文件的计算,例如窗口大小和窗口边缘相对权重值。

WindowsSize:窗口大小是用于配置文件计算的间隔长度。对于窗口大小n,我们使用每一侧的i-(n-1)/2个邻近残基来计算残基i的分数。残基i的分数是这些氨基酸的缩放值的总和,可选地根据它们在窗口中的位置加权。

边缘:窗口的中心氨基酸的权重始终为1。默认情况下,其余窗口位置的氨基酸具有相同的权重,但可以通过将间隔开始和结束处残基的边缘值设置为0和1之间的值,使窗口中心的残基具有比其他残基更大的权重。例如,对于Edge=0.4且窗口大小为5,权重将为:0.4、0.7、1.0、0.7、0.4。

该方法返回一个值列表,可以绘制这些值以查看蛋白质序列的变化。 存在多种规模。只需将您的最爱添加到ProtParamData模块即可。

类似于expasy的ProtScale:http://www.expasy.org/cgi-bin/protscale.pl

isoelectric_point()

计算等电点。

使用模块IsoelectricPoint计算蛋白质的pI。

charge_at_pH(pH)

计算给定pH值下蛋白质的电荷。

secondary_structure_fraction()

计算螺旋线、转角和薄片的分数。

根据Haimov和Srebnik,2016年; Hutchinson和Thornton,1994年; Kim和Berg,1993年,返回倾向于呈螺旋状、转弯状或片状的氨基酸分数列表。

螺旋中的氨基酸:E、M、A、L、K。氨基酸依次为:N、P、G、S、D。纸片中的氨基酸:V、I、Y、F、W、L、T。

请注意,在v1.82之前,该方法在声称返回(HSYS、Turn、Sheet)时错误返回(Sheet、Turn、HSYS)。

返回一个由三个浮点数组成的元组(Humble,Turn,Sheet)。

molar_extinction_coefficient()

计算摩尔吸光系数。

假设半台北酸(还原)和半台北酸残基(Cys-Cys-键),计算摩尔吸光系数

__firstlineno__ = 64
__static_attributes__ = ('amino_acids_content', 'length', 'monoisotopic', 'sequence')