Bio.SeqIO.SeqXmlIO模块

Bio.SeqIO支持“seqhtml”文件格式SeqML。

该模块用于读写SeqML格式文件作为SeqRecord对象,预计通过Bio.SeqIO API使用。

SeqML是一种轻量级的ML格式,应该是FASTA文件的替代方案。欲了解更多信息,请参阅http://www.seqXML.org和Schmitt et al(2011),https://doi.org/10.1093/bib/bbr025

class Bio.SeqIO.SeqXmlIO.ContentHandler

基类:ContentHandler

处理解析器生成的ML事件(PRIVATE)。

__init__()

创建一个处理程序来处理HTML事件。

startDocument()

当找到ML声明时设置ML处理程序。

startSeqXMLElement(name, qname, attrs)

处理seqML元素的开始。

endSeqXMLElement(name, qname)

处理seqML元素的结尾。

startEntryElement(name, qname, attrs)

使用id和可选条目来源(PRIVATE)设置新条目。

endEntryElement(name, qname)

处理入口元素的结束。

startEntryFieldElementVersion01(name, qname, attrs)

接收入口元素的字段并将其转发至0.1版本。

startEntryFieldElement(name, qname, attrs)

接收入口元素的字段并将其转发至版本>=0.2。

startSpeciesElement(attrs)

解析物种信息。

endSpeciesElement(name, qname)

处理物种元素的结束。

startDescriptionElement(attrs)

解析描述。

endDescriptionElement(name, qname)

处理描述元素的结尾。

startSequenceElement(attrs)

解析DNA、RNA或蛋白质序列。

endSequenceElement(name, qname)

处理序列元素的结尾。

startDBRefElement(attrs)

解析数据库交叉引用。

endDBRefElement(name, qname)

处理DBRef元素的结尾。

startPropertyElement(attrs)

处理属性元素的开始。

endPropertyElement(name, qname)

处理属性元素的结尾。

characters(data)

处理字符数据。

__annotations__ = {}
__firstlineno__ = 29
__static_attributes__ = ('data', 'endElementNS', 'ncbiTaxID', 'records', 'seqXMLversion', 'source', 'sourceVersion', 'speciesName', 'startElementNS')
class Bio.SeqIO.SeqXmlIO.SeqXmlIterator(stream_or_path, namespace=None)

基类:SequenceIterator

seqML文件的解析器。

分析seqML文件并创建SeqRecords。假设seqML有效,请事先验证。假设一条记录的所有信息都可以在记录元素或以上记录元素中找到。当到达元素的开始标记时,会调用两种类型的方法。要在到达元素结束标记之前仅接收元素的属性,请implement _attr_TAGNAME。要将元素及其子元素作为多姆树,请实现_elem_TAGNUM。属于多姆树一部分的所有内容都不会触发任何进一步的方法调用。

modes = 'b'
BLOCK = 1024
__init__(stream_or_path, namespace=None)

创建对象并初始化HTML解析器。

__next__()

返回下一个条目。

__abstractmethods__ = frozenset({})
__annotations__ = {}
__firstlineno__ = 430
__parameters__ = ()
__static_attributes__ = ('ncbiTaxID', 'parser', 'records', 'seqXMLversion', 'source', 'sourceVersion', 'speciesName')
class Bio.SeqIO.SeqXmlIO.SeqXmlWriter(target, source=None, source_version=None, species=None, ncbiTaxId=None)

基类:SequenceWriter

将SeqRecords写入seqML文件。

SeqML需要SeqRecord注释来指定molecule_类型;分子类型需要包含术语“DNA”、“RNA”或“蛋白质”。

modes = 'b'
__init__(target, source=None, source_version=None, species=None, ncbiTaxId=None)

创建对象并启动html生成器。

论点:
  • 目标-以二进制模式打开的输出流,或文件的路径。

  • source -文件的源程序/数据库,例如UniProt。

  • source_Version -数据来源的源程序或数据库的版本或发行号。

  • 物种-文件中所有条目起源物种的学名。

  • ncbiTaxId -起源物种的NCBI分类标识符。

write_records(records)

将记录写入输出文件,并返回记录数。

records -返回SeqRecord对象的列表或迭代器

write_header()

使用文档元数据写入根节点。

write_record(record)

写一条记录。

关闭根节点并完成ML文档。

__abstractmethods__ = frozenset({})
__annotations__ = {}
__firstlineno__ = 515
__parameters__ = ()
__static_attributes__ = ('ncbiTaxId', 'source', 'source_version', 'species', 'xml_generator')