Bio.SeqIO.SeqXmlIO模块
Bio.SeqIO支持“seqhtml”文件格式SeqML。
该模块用于读写SeqML格式文件作为SeqRecord对象,预计通过Bio.SeqIO API使用。
SeqML是一种轻量级的ML格式,应该是FASTA文件的替代方案。欲了解更多信息,请参阅http://www.seqXML.org和Schmitt et al(2011),https://doi.org/10.1093/bib/bbr025
- class Bio.SeqIO.SeqXmlIO.ContentHandler
基类:
ContentHandler处理解析器生成的ML事件(PRIVATE)。
- __init__()
创建一个处理程序来处理HTML事件。
- startDocument()
当找到ML声明时设置ML处理程序。
- startSeqXMLElement(name, qname, attrs)
处理seqML元素的开始。
- endSeqXMLElement(name, qname)
处理seqML元素的结尾。
- startEntryElement(name, qname, attrs)
使用id和可选条目来源(PRIVATE)设置新条目。
- endEntryElement(name, qname)
处理入口元素的结束。
- startEntryFieldElementVersion01(name, qname, attrs)
接收入口元素的字段并将其转发至0.1版本。
- startEntryFieldElement(name, qname, attrs)
接收入口元素的字段并将其转发至版本>=0.2。
- startSpeciesElement(attrs)
解析物种信息。
- endSpeciesElement(name, qname)
处理物种元素的结束。
- startDescriptionElement(attrs)
解析描述。
- endDescriptionElement(name, qname)
处理描述元素的结尾。
- startSequenceElement(attrs)
解析DNA、RNA或蛋白质序列。
- endSequenceElement(name, qname)
处理序列元素的结尾。
- startDBRefElement(attrs)
解析数据库交叉引用。
- endDBRefElement(name, qname)
处理DBRef元素的结尾。
- startPropertyElement(attrs)
处理属性元素的开始。
- endPropertyElement(name, qname)
处理属性元素的结尾。
- characters(data)
处理字符数据。
- __annotations__ = {}
- __firstlineno__ = 29
- __static_attributes__ = ('data', 'endElementNS', 'ncbiTaxID', 'records', 'seqXMLversion', 'source', 'sourceVersion', 'speciesName', 'startElementNS')
- class Bio.SeqIO.SeqXmlIO.SeqXmlIterator(stream_or_path, namespace=None)
-
seqML文件的解析器。
分析seqML文件并创建SeqRecords。假设seqML有效,请事先验证。假设一条记录的所有信息都可以在记录元素或以上记录元素中找到。当到达元素的开始标记时,会调用两种类型的方法。要在到达元素结束标记之前仅接收元素的属性,请implement _attr_TAGNAME。要将元素及其子元素作为多姆树,请实现_elem_TAGNUM。属于多姆树一部分的所有内容都不会触发任何进一步的方法调用。
- modes = 'b'
- BLOCK = 1024
- __init__(stream_or_path, namespace=None)
创建对象并初始化HTML解析器。
- __next__()
返回下一个条目。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 430
- __parameters__ = ()
- __static_attributes__ = ('ncbiTaxID', 'parser', 'records', 'seqXMLversion', 'source', 'sourceVersion', 'speciesName')
- class Bio.SeqIO.SeqXmlIO.SeqXmlWriter(target, source=None, source_version=None, species=None, ncbiTaxId=None)
-
将SeqRecords写入seqML文件。
SeqML需要SeqRecord注释来指定molecule_类型;分子类型需要包含术语“DNA”、“RNA”或“蛋白质”。
- modes = 'b'
- __init__(target, source=None, source_version=None, species=None, ncbiTaxId=None)
创建对象并启动html生成器。
- 论点:
目标-以二进制模式打开的输出流,或文件的路径。
source -文件的源程序/数据库,例如UniProt。
source_Version -数据来源的源程序或数据库的版本或发行号。
物种-文件中所有条目起源物种的学名。
ncbiTaxId -起源物种的NCBI分类标识符。
- write_records(records)
将记录写入输出文件,并返回记录数。
records -返回SeqRecord对象的列表或迭代器
- write_header()
使用文档元数据写入根节点。
- write_record(record)
写一条记录。
关闭根节点并完成ML文档。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 515
- __parameters__ = ()
- __static_attributes__ = ('ncbiTaxId', 'source', 'source_version', 'species', 'xml_generator')