Bio.SearchIO.FastaIO 模組

Bio.SearchIO 支援 Bill Pearson 的 FASTA 工具。

此模組新增了對解析 FASTA 輸出的支援。FASTA 是一套程式,可透過搜尋資料庫或識別局部重複來尋找蛋白質或核苷酸序列之間局部或全域相似的區域。

Bio.SearchIO.FastaIO 已在下列 FASTA 版本和類型上測試過

  • 類型:fasta、ssearch、tfastx

  • 版本:35、36

其他類型和/或版本可能會引入一些錯誤。如果您看到此類問題,請向 Biopython 的錯誤追蹤器提交錯誤報告。

有關 FASTA 的更多資訊可透過以下連結取得

支援的格式

Bio.SearchIO.FastaIO 支援解析和索引由 -m 10 旗標觸發的 FASTA 輸出。模仿其他程式的其他格式(例如,使用 -m 8 旗標的 BLAST 表格格式)可能是可解析的,但會使用 SearchIO 的其他解析器(在此情況下,使用「blast-tab」解析器)。

fasta-m10

請注意,在 FASTA -m 10 輸出中,來自不同鏈的 HSP 被認為是來自不同的命中。它們在命中表格中列為兩個獨立的項目。FastaIO 識別這一點,並將具有相同命中 ID 的 HSP 分組到單個 Hit 物件中,無論鏈如何。

FASTA 有時也會輸出與 HSP 比對相鄰的額外序列。這些額外序列會被 FastaIO 捨棄。僅擷取包含實際序列比對的區域。

提供下列物件屬性

物件

屬性

QueryResult

description

查詢序列描述

id

查詢序列 ID

program

FASTA 類型

seq_len

查詢序列的完整長度

target

目標搜尋資料庫

version

FASTA 版本

Hit

seq_len

命中序列的完整長度

HSP

bitscore

*_bits 行

evalue

*_expect 行

ident_pct

*_ident 行

init1_score

*_init1 行

initn_score

*_initn 行

opt_score

*_opt 行、*_s-w opt 行

pos_pct

*_sim 行

sw_score

*_score 行

z_score

*_z-score 行

HSPFragment(也透過 HSP)

aln_annotation

al_cons 區塊(如果存在)

hit

命中序列

hit_end

命中序列結束座標

hit_start

命中序列開始座標

hit_strand

命中序列鏈

query

查詢序列

query_end

查詢序列結束座標

query_start

查詢序列開始座標

query_strand

查詢序列鏈

class Bio.SearchIO.FastaIO.FastaM10Parser(handle, _FastaM10Parser__parse_hit_table=False)

基底:object

用於 Bill Pearson 的 FASTA 套件 -m 10 輸出的解析器。

__init__(handle, _FastaM10Parser__parse_hit_table=False)

初始化類別。

__iter__()

迭代 FastaM10Parser 物件會產生查詢結果。

class Bio.SearchIO.FastaIO.FastaM10Indexer(filename)

基底:SearchIndexer

用於 Bill Pearson 的 FASTA 套件 -m 10 輸出的索引器類別。

__init__(filename)

初始化類別。

__iter__()

迭代 FastaM10Indexer;產生查詢結果的索引鍵、起始偏移和偏移長度。

get_raw(offset)

以位元組字串形式從檔案傳回原始記錄。

__abstractmethods__ = frozenset({})