Bio.SearchIO.FastaIO模块

Bio.SearchIO支持Bill Pearson的FASTA工具。

该模块添加了对解析FASTA输出的支持。FASTA是一套程序,通过搜索数据库或识别局部重复来寻找蛋白质或核苷序列之间局部或全球相似性区域。

Bio.SearchIO.FastaIO在以下FASTA口味和版本上进行了测试:

  • 口味:fasta,ssearch,tfastx

  • 版本:35、36

其他口味和/或版本可能会引入一些错误。如果您发现此类问题,请向Biopython的错误跟踪器提交错误报告。

有关FASTA的更多信息可通过以下链接获取:

支持的格式

Bio.SearchIO.FastaIO支持解析和索引由-m 10标志触发的FASTA输出。模仿其他程序的其他格式(例如使用-m 8标志的AMPS表格格式)可能是可解析的,但使用SearchIO的其他解析器(在这种情况下,使用“blast-tab”解析器)。

fasta-m10

请注意,在FASTA -m 10输出中,来自不同链的热休克蛋白被认为来自不同的命中。它们在命中表中作为两个单独的条目列出。FastaIO识别出这一点,并将具有相同hit ID的Hit分组到单个Hit对象中,无论串如何。

FASTA有时还会输出与热休克蛋白匹配相邻的额外序列。这些额外的序列被FastaIO丢弃。仅提取包含实际序列匹配的区域。

提供了以下对象属性:

对象

属性

QueryResult

描述

查询序列描述

ID

查询序列ID

程序

FASTA风味

seq_len

查询序列的全长

目标

目标搜索数据库

版本

FASTA版本

击中

seq_len

命中序列的完整长度

HSP

位得分

*_位线

evalue

*_期望行

ident_pct

*_ident行

init1_score

*_init1行

initn_score

*_initn行

opt_score

*_opt line, * _s-w选择线

pos_pct

*_sim线

sw_score

*_得分线

z_score

*_z得分线

HSPFragment(也通过HSPs)

aln_annotation

al_cons块(如果存在)

击中

命中序列

hit_end

命中序列结束坐标

hit_start

命中序列开始坐标

hit_strand

命中序列链

查询

查询序列

query_end

查询序列结束坐标

query_start

查询序列起始坐标

query_strand

查询序列链

class Bio.SearchIO.FastaIO.FastaM10Parser(handle, _FastaM10Parser__parse_hit_table=False)

基类:object

Bill Pearson的FASTA套件的-m 10输出的解析器。

__init__(handle, _FastaM10Parser__parse_hit_table=False)

初始化课程。

__iter__()

迭代FastaM10Parser对象会产生查询结果。

__firstlineno__ = 269
__static_attributes__ = ('_preamble', 'handle', 'line')
class Bio.SearchIO.FastaIO.FastaM10Indexer(filename)

基类:SearchIndexer

Bill Pearson的FASTA套件的-m 10输出的索引器类。

__init__(filename)

初始化课程。

__iter__()

在FastaM 10 Indexer上迭代;产生查询结果的键、开始偏差、偏差长度。

get_raw(offset)

将文件中的原始记录作为字节字符串返回。

__abstractmethods__ = frozenset({})
__annotations__ = {}
__firstlineno__ = 528
__static_attributes__ = ()