Bio.SeqUtils.ProtParam模块

简单的蛋白质分析。

示例

>>> from Bio.SeqUtils.ProtParam import ProteinAnalysis
>>> X = ProteinAnalysis("MAEGEITTFTALTEKFNLPPGNYKKPKLLYCSNGGHFLRILPDGTVDGT"
...                     "RDRSDQHIQLQLSAESVGEVYIKSTETGQYLAMDTSGLLYGSQTPSEEC"
...                     "LFLERLEENHYNTYTSKKHAEKNWFVGLKKNGSCKRGPRTHYGQKAILF"
...                     "LPLPV")
>>> print(X.count_amino_acids()['A'])
6
>>> print(X.count_amino_acids()['E'])
12
>>> print("%0.2f" % X.amino_acids_percent['A'])
3.95
>>> print("%0.2f" % X.amino_acids_percent['L'])
11.84
>>> print("%0.2f" % X.molecular_weight())
17103.16
>>> print("%0.2f" % X.aromaticity())
0.10
>>> print("%0.2f" % X.instability_index())
41.98
>>> print("%0.2f" % X.isoelectric_point())
7.72
>>> sec_struc = X.secondary_structure_fraction()  # [helix, turn, sheet]
>>> print("%0.2f" % sec_struc[0])  # helix
0.33
>>> print("%0.2f" % sec_struc[1])  # turn
0.29
>>> print("%0.2f" % sec_struc[2])  # sheet
0.37
>>> epsilon_prot = X.molar_extinction_coefficient()  # [reduced, oxidized]
>>> print(epsilon_prot[0])  # with reduced cysteines
17420
>>> print(epsilon_prot[1])  # with disulfid bridges
17545

其他公开方法包括：

肉汁
protein_scale
灵活性
charge_at_pH

class Bio.SeqUtils.ProtParam.ProteinAnalysis(prot_sequence, monoisotopic=False)

基类：object

包含蛋白质分析方法的类。

构造函数有两个参数。第一个是作为字符串或Seq对象的蛋白质序列。

第二个参数是可选的。如果设置为True，则氨基酸的重量将使用其单一同位素质量（每种元素最丰富的同位素的重量）而不是平均分子质量（每种元素所有稳定同位素的平均重量）来计算。如果设置为假（默认值）或省略，则IUPAC平均分子质量将用于计算。

__init__(prot_sequence, monoisotopic=False): 初始化课程。

count_amino_acids()

计数标准氨基酸，返回指令。

计算每个氨基酸在蛋白质序列中的次数。返回字典{AminoAcid：Number}。

返回值缓存在self.amino_acids_content中。随后的通话不会重新计算。

get_amino_acids_percent(): 包括在内是为了向后兼容性（DEPreCATED）。

property amino_acids_percent

获取氨基酸含量（百分比）。

与count_amino_acids相同，它只返回Number占整个序列的百分比。返回{AminoAcid：percentage}的字典。

与废弃的get_amino_acids_percent方法不同，此属性返回0-100范围内的百分比。

molecular_weight(): 根据蛋白质序列计算MW。

aromaticity()

根据Lobry，1994计算芳香度。

根据Lobry，1994计算蛋白质的芳香性值。它只是Phe+Trp+Tyr的相对频率。

instability_index()

根据Guruprasad等人1990计算不稳定指数。

实施Guruprasad等人1990的方法，以测试蛋白质的稳定性。任何高于40的值都意味着蛋白质不稳定（半衰期短）。

参见：Guruprasad K.，Reddy B.V.B. Pandit M.W.蛋白质工程4：155-161（1990）。

flexibility()

根据Vihinen，1994计算灵活性。

没有参数来更改窗口大小，因为参数特定于窗口=9。使用的参数经过优化以确定灵活性。

gravy(scale='KyteDoolitle')

根据Kyte和Doolitle，1982计算重力（总平均亲水性）。

利用给定的疏水性量表，默认使用Kyte和Doolittle（KyteDoolitle）提出的原始量表。其他选项包括：Adorderin、AbrahamLeo、Argos、BlackMold、BullBreese、Casari、Cid、Cowan 3.4、Cowan 7.5、Eisenberg、Engelman、Fasman、Fauchere、GoldSack、Guy、Jones、Jurizer、Kidera、Miyazawa、Parker、Ponnuswamy、Rose、Roseman、Sweet、Tanford、Wilson和Zimmerman。

可以在ProtParamData中添加新的刻度。

protein_scale(param_dict, window, edge=1.0)

通过任何氨基酸标度计算轮廓。

氨基酸等级由分配给每种类型的氨基酸的数字定义。最常用的尺度是疏水性或亲水性尺度和二级结构形态参数尺度，但也存在许多其他尺度，这些尺度基于氨基酸的不同化学和物理性质。您可以设置多个参数来控制比例配置文件的计算，例如窗口大小和窗口边缘相对权重值。

WindowsSize：窗口大小是用于配置文件计算的间隔长度。对于窗口大小n，我们使用每一侧的i-（n-1）/2个邻近残基来计算残基i的分数。残基i的分数是这些氨基酸的缩放值的总和，可选地根据它们在窗口中的位置加权。

边缘：窗口的中心氨基酸的权重始终为1。默认情况下，其余窗口位置的氨基酸具有相同的权重，但可以通过将间隔开始和结束处残基的边缘值设置为0和1之间的值，使窗口中心的残基具有比其他残基更大的权重。例如，对于Edge=0.4且窗口大小为5，权重将为：0.4、0.7、1.0、0.7、0.4。

该方法返回一个值列表，可以绘制这些值以查看蛋白质序列的变化。存在多种规模。只需将您的最爱添加到ProtParamData模块即可。

类似于expasy的ProtScale：http://www.expasy.org/cgi-bin/protscale.pl

isoelectric_point()

计算等电点。

使用模块IsoelectricPoint计算蛋白质的pI。

charge_at_pH(pH): 计算给定pH值下蛋白质的电荷。

secondary_structure_fraction()

计算螺旋线、转角和薄片的分数。

根据Haimov和Srebnik，2016年; Hutchinson和Thornton，1994年; Kim和Berg，1993年，返回倾向于呈螺旋状、转弯状或片状的氨基酸分数列表。

螺旋中的氨基酸：E、M、A、L、K。氨基酸依次为：N、P、G、S、D。纸片中的氨基酸：V、I、Y、F、W、L、T。

请注意，在v1.82之前，该方法在声称返回（HSYS、Turn、Sheet）时错误返回（Sheet、Turn、HSYS）。

返回一个由三个浮点数组成的元组（Humble，Turn，Sheet）。

molar_extinction_coefficient()

计算摩尔吸光系数。

假设半台北酸（还原）和半台北酸残基（Cys-Cys-键），计算摩尔吸光系数

__firstlineno__ = 64

__static_attributes__ = ('amino_acids_content', 'length', 'monoisotopic', 'sequence')