Bio.SearchIO.FastaIO 模組
Bio.SearchIO 支援 Bill Pearson 的 FASTA 工具。
此模組新增了對解析 FASTA 輸出的支援。FASTA 是一套程式,可透過搜尋資料庫或識別局部重複來尋找蛋白質或核苷酸序列之間局部或全域相似的區域。
Bio.SearchIO.FastaIO 已在下列 FASTA 版本和類型上測試過
類型:fasta、ssearch、tfastx
版本:35、36
其他類型和/或版本可能會引入一些錯誤。如果您看到此類問題,請向 Biopython 的錯誤追蹤器提交錯誤報告。
有關 FASTA 的更多資訊可透過以下連結取得
支援的格式
Bio.SearchIO.FastaIO 支援解析和索引由 -m 10 旗標觸發的 FASTA 輸出。模仿其他程式的其他格式(例如,使用 -m 8 旗標的 BLAST 表格格式)可能是可解析的,但會使用 SearchIO 的其他解析器(在此情況下,使用「blast-tab」解析器)。
fasta-m10
請注意,在 FASTA -m 10 輸出中,來自不同鏈的 HSP 被認為是來自不同的命中。它們在命中表格中列為兩個獨立的項目。FastaIO 識別這一點,並將具有相同命中 ID 的 HSP 分組到單個 Hit 物件中,無論鏈如何。
FASTA 有時也會輸出與 HSP 比對相鄰的額外序列。這些額外序列會被 FastaIO 捨棄。僅擷取包含實際序列比對的區域。
提供下列物件屬性
物件 |
屬性 |
值 |
---|---|---|
QueryResult |
description |
查詢序列描述 |
id |
查詢序列 ID |
|
program |
FASTA 類型 |
|
seq_len |
查詢序列的完整長度 |
|
target |
目標搜尋資料庫 |
|
version |
FASTA 版本 |
|
Hit |
seq_len |
命中序列的完整長度 |
HSP |
bitscore |
*_bits 行 |
evalue |
*_expect 行 |
|
ident_pct |
*_ident 行 |
|
init1_score |
*_init1 行 |
|
initn_score |
*_initn 行 |
|
opt_score |
*_opt 行、*_s-w opt 行 |
|
pos_pct |
*_sim 行 |
|
sw_score |
*_score 行 |
|
z_score |
*_z-score 行 |
|
HSPFragment(也透過 HSP) |
aln_annotation |
al_cons 區塊(如果存在) |
hit |
命中序列 |
|
hit_end |
命中序列結束座標 |
|
hit_start |
命中序列開始座標 |
|
hit_strand |
命中序列鏈 |
|
query |
查詢序列 |
|
query_end |
查詢序列結束座標 |
|
query_start |
查詢序列開始座標 |
|
query_strand |
查詢序列鏈 |