Bio. PDB.PDBList模块

通过互联网访问TSB(例如下载结构)。

class Bio.PDB.PDBList.PDBList(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

基类:object

快速访问TSB或其镜像上的结构列表。

此类提供对DBC服务器或其镜像上的结构列表的快速访问。结构列表包含四个字母的DBC代码,指示结构是新的、已修改的或过时的。这些名单每周发布一次。

它还提供了从服务器检索DBC文件的功能。要正确使用它,请准备一个存储DBC文件的目录/PDL等。

支持所有可用的文件格式(DBC、PDBx/mmCif、PDBML、mmtf)。请注意,大型结构(包含>62个链和/或99999 ATOM线)不再存储为单个DBC文件,并且默认情况下(当选择DBC格式时)不会下载。

大型结构可以以其他格式下载,包括PDBx/mmCif或作为. mar文件(给定结构的类TSB格式文件的集合)。

如果您想在代理内部使用此模块,请将代理变量添加到您的环境中,例如在Unix中:exportHTT_PROXY =' http://realproxy.charite.de:888 '(这也可以添加到~/.bashrc)

PDB_REF = '\n    The Protein Data Bank: a computer-based archival file for macromolecular structures.\n    F.C.Bernstein, T.F.Koetzle, G.J.B.Williams, E.F.Meyer Jr, M.D.Brice, J.R.Rodgers, O.Kennard, T.Shimanouchi, M.Tasumi\n    J. Mol. Biol. 112 pp. 535-542 (1977)\n    http://www.pdb.org/.\n    '
__init__(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

使用默认服务器或自定义服务器初始化类。

参数ð是要使用的本地路径,默认为初始化时的当前目录。

static get_status_list(url)

从给定的URL在每周DPD状态文件中复制一个PDL代码列表。

由get_recent_changes使用。通过这种方法解析的列表文件的典型内容现在非常简单--每一行一个DBC名称。

get_recent_changes()

返回三个最新每周文件列表(已添加、已修改、已过时)。

从DBC服务器读取包含已更改条目的目录,并将三个URL的多元组返回到最近列表中新的、修改的和过时的条目的文件。使用具有最大数字名称的目录。如果出现问题,返回无。

数据/状态目录的内容(将使用20031013);:

公司简介 2 1002 sysadmin 512 Oct 6 18:28 20031006 drwxrwxr-x 2 1002 sysadmin 512 Oct 14 02:14 20031013 -rw-r--r- 1 1002 sysadmin 1327 2001年3月12日REAUTE

get_all_entries()

初始化包含所有DBC条目和一些注释的大文件。

返回索引文件中的DBC代码列表。

get_all_obsolete()

返回DBC中所有废弃条目的列表。

返回PDB中所有过时的PDB代码的列表。

以格式(第一个pdb_code列是使用的列)从DBC服务器获取并解析文件。文件看起来像这样::

 LIST OF OBSOLETE COORDINATE ENTRIES AND SUCCESSORS
OBSLTE    31-JUL-94 116L     216L
...
OBSLTE    29-JAN-96 1HFT     2HFT
OBSLTE    21-SEP-06 1HFV     2J5X
OBSLTE    21-NOV-03 1HG6
OBSLTE    18-JUL-84 1HHB     2HHB 3HHB
OBSLTE    08-NOV-96 1HID     2HID
OBSLTE    01-APR-97 1HIU     2HIU
OBSLTE    14-JAN-04 1HKE     1UUZ
...
retrieve_pdb_file(pdb_code, obsolete=False, pdir=None, file_format=None, overwrite=False)

从DBC服务器获取DBC结构文件,并将其保存在本地。

DBC结构的文件名作为单个字符串返回。如果过时 == 确实,该文件将保存在特殊的文件树中。

注.默认下载格式已从DBC更改为PDBx/mmCif

参数:
  • pdb_code (string) -- 4-来自DBC的符号结构Id(例如3 J92)。

  • file_format (string) -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “ð”(格式TSB), * "xml" (PDBML/XML format), * “mmtf”(高度压缩)、*“bundle”(用于大型结构的TSB格式存档)

  • overwrite (bool) -- 如果设置为True,现有结构文件将被覆盖。默认值:False

  • obsolete (bool) -- 仅对过时的结构有意义。如果为True,请将废弃结构下载到“废弃”文件夹,否则将不会执行下载。此选项不适用于mmtf格式,因为过时的结构不存储在mmtf中。当指定参数pdir时,也没有意义。注意:确保你下载的是真正过时的结构。尝试下载非过时的结构到过时的文件夹将不起作用,你面临的“结构不存在”错误。默认值:False

  • pdir (string) -- 将文件放入此目录中(默认:创建DBC风格的目录树)

返回:

文件名

返回类型:

string

update_pdb(file_format=None, with_assemblies=False)

更新TSB文件的本地副本。

我想这是该模块中“最想要”的功能。它获取每周新的和修改的MDB条目列表,并自动下载相应的DBC文件。您可以将此模块称为每周cron作业。

download_pdb_files(pdb_codes: list[str], obsolete: bool = False, pdir: str | None = None, file_format: str | None = None, overwrite: bool = False, max_num_threads: int | None = None)

从DBC服务器获取一组DBC结构文件并将其存储在本地。

参数:
  • pdb_codes -- 4符号DBC结构ID列表

  • obsolete -- 仅对过时的结构有意义。如果为True,请将废弃结构下载到“废弃”文件夹。否则,将不会执行下载。此选项不适用于mmtf格式,因为过时的结构不可用作mmtf。(默认: False )

  • pdir -- 将文件放入此目录中。默认情况下,创建DBC风格的目录树。

  • file_format -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “ð”(格式TSB), * "xml" (PMDML/XML format), * “mmtf”(高度压缩)、*“bundle”(用于大型结构的TSB格式存档)。

  • overwrite -- 如果设置为true,现有结构文件将被覆盖。(默认: False )

  • max_num_threads -- 下载文件时使用的最大线程数

get_all_assemblies(file_format: str = '') list[tuple[str, str]]

使用关联的生物程序集初始化DBC条目列表。

请求的列表将被缓存,以避免多次调用服务器。

参数:

file_format (str) -- 留下的遗留参数是为了避免破坏更改

返回:

组件

返回类型:

list

retrieve_assembly_file(pdb_code, assembly_num, pdir=None, file_format=None, overwrite=False)

获取与DBC条目关联的一个或多个程序集结构。

除非下文注明,否则参数在中描述 retrieve_pdb_file .

参数:

assembly_num (str) -- 要下载的装配号。

:rstyle:url:Return:下载的程序集文件的文件名。

download_all_assemblies(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

删除本地DBC副本中未包含的所有生物组装件。

参数:
  • listfile -- 所有汇编代码将写入的文件名

  • file_format -- 下载条目的格式。可用选项有“mmCif”或“ð”。默认为“mmCif”。

  • max_num_threads -- 下载程序集时使用的最大线程数

download_entire_pdb(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

删除本地DBC副本中不存在的所有DBC条目。

注:默认下载格式已从DBC更改为PDBx/mmCif。

参数:
  • listfile -- 所有DBC代码都将写入的文件集

  • file_format -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “ð”(格式TSB), * "xml" (PMDML/XML format), * “mmtf”(高度压缩)、*“bundle”(用于大型结构的TSB格式存档)

  • max_num_threads -- 下载PDB条目时使用的最大线程数

download_obsolete_entries(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

删除本地废弃PDL副本中不存在的所有废弃PDL条目。

注:默认下载格式已从DBC更改为PDBx/mmCif。

参数:
  • listfile -- 所有DBC代码都将写入的文件集

  • file_format -- 文件格式。可用选项: * "mmCif" (default, PDBx/mmCif file), * “ð”(DBC格式)、*“html”(PMDML/ML格式)。

  • max_num_threads -- 下载PDB条目时使用的最大线程数

get_seqres_file(savefile='pdb_seqres.txt')

初始化并保存包含所有DBC条目序列的(大)文件。

__firstlineno__ = 54
__static_attributes__ = ('_verbose', 'assemblies', 'flat_tree', 'local_pdb', 'obsolete_pdb', 'pdb_server')