Bio.SearchIO.FastaIO模块
Bio.SearchIO支持Bill Pearson的FASTA工具。
该模块添加了对解析FASTA输出的支持。FASTA是一套程序,通过搜索数据库或识别局部重复来寻找蛋白质或核苷序列之间局部或全球相似性区域。
Bio.SearchIO.FastaIO在以下FASTA口味和版本上进行了测试:
口味:fasta,ssearch,tfastx
版本:35、36
其他口味和/或版本可能会引入一些错误。如果您发现此类问题,请向Biopython的错误跟踪器提交错误报告。
有关FASTA的更多信息可通过以下链接获取:
支持的格式
Bio.SearchIO.FastaIO支持解析和索引由-m 10标志触发的FASTA输出。模仿其他程序的其他格式(例如使用-m 8标志的AMPS表格格式)可能是可解析的,但使用SearchIO的其他解析器(在这种情况下,使用“blast-tab”解析器)。
fasta-m10
请注意,在FASTA -m 10输出中,来自不同链的热休克蛋白被认为来自不同的命中。它们在命中表中作为两个单独的条目列出。FastaIO识别出这一点,并将具有相同hit ID的Hit分组到单个Hit对象中,无论串如何。
FASTA有时还会输出与热休克蛋白匹配相邻的额外序列。这些额外的序列被FastaIO丢弃。仅提取包含实际序列匹配的区域。
提供了以下对象属性:
对象 |
属性 |
值 |
|---|---|---|
QueryResult |
描述 |
查询序列描述 |
ID |
查询序列ID |
|
程序 |
FASTA风味 |
|
seq_len |
查询序列的全长 |
|
目标 |
目标搜索数据库 |
|
版本 |
FASTA版本 |
|
击中 |
seq_len |
命中序列的完整长度 |
HSP |
位得分 |
*_位线 |
evalue |
*_期望行 |
|
ident_pct |
*_ident行 |
|
init1_score |
*_init1行 |
|
initn_score |
*_initn行 |
|
opt_score |
*_opt line, * _s-w选择线 |
|
pos_pct |
*_sim线 |
|
sw_score |
*_得分线 |
|
z_score |
*_z得分线 |
|
HSPFragment(也通过HSPs) |
aln_annotation |
al_cons块(如果存在) |
击中 |
命中序列 |
|
hit_end |
命中序列结束坐标 |
|
hit_start |
命中序列开始坐标 |
|
hit_strand |
命中序列链 |
|
查询 |
查询序列 |
|
query_end |
查询序列结束坐标 |
|
query_start |
查询序列起始坐标 |
|
query_strand |
查询序列链 |
- class Bio.SearchIO.FastaIO.FastaM10Parser(handle, _FastaM10Parser__parse_hit_table=False)
基类:
objectBill Pearson的FASTA套件的-m 10输出的解析器。
- __init__(handle, _FastaM10Parser__parse_hit_table=False)
初始化课程。
- __iter__()
迭代FastaM10Parser对象会产生查询结果。
- __firstlineno__ = 269
- __static_attributes__ = ('_preamble', 'handle', 'line')
- class Bio.SearchIO.FastaIO.FastaM10Indexer(filename)
基类:
SearchIndexerBill Pearson的FASTA套件的-m 10输出的索引器类。
- __init__(filename)
初始化课程。
- __iter__()
在FastaM 10 Indexer上迭代;产生查询结果的键、开始偏差、偏差长度。
- get_raw(offset)
将文件中的原始记录作为字节字符串返回。
- __abstractmethods__ = frozenset({})
- __annotations__ = {}
- __firstlineno__ = 528
- __static_attributes__ = ()