Bio.SearchIO.InterproscanIO 套件

子模組

模組內容

Bio.SearchIO 支援 InterProScan 輸出格式。

此模組新增了對解析 InterProScan XML 輸出的支援。InterProScan 可作為命令列程式或在 EMBL-EBI 的網頁上使用。Bio.SearchIO.InterproscanIO 已在以下版本上測試過

  • 版本:5.26-65.0 (interproscan-model-2.1.xsd)

關於 InterProScan 的更多資訊可透過以下連結取得: - 出版物:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3998142/ - 網頁介面:https://www.ebi.ac.uk/interpro/search/sequence-search - 文件:https://github.com/ebi-pf-team/interproscan/wiki

支援的格式

Bio.SearchIO.InterproscanIO 支援以下格式

  • XML - 'interproscan-xml' - 解析

interproscan-xml

interproscan-xml 解析器遵循此處描述的 InterProScan XML:https://github.com/ebi-pf-team/interproscan/wiki/OutputFormats

物件

屬性

XML 元素

QueryResult

target

InterPro

program

InterProScan

version

protein-matches.interproscan-version

Hit

accession

signature.name

id

signature.ac

description

signature.desc

dbxrefs

IPR:entry.ac go-xref.id pathway-xref.db:pathway-xref.id

attributes [‘Target’] [‘Target version’] [‘Hit type’]

*-match / *-location signature-library-release.library signature-library-release.version

HSP

bitscore

*-location.score

evalue

*-location.evalue

HSPFragment (也透過 HSP)

query_start

*-location.start

query_end

*-location.end

hit_start

*-location.hmm-start

hit_end

*-location.hmm-end

query

sequence

InterProScan XML 檔案可能包含具有多個位置的匹配項,或多個匹配項與具有單個位置的相同蛋白質。在這兩種情況下,匹配項都會唯一地儲存為 HIT 物件,而位置則儲存為 HSP 物件。

HSP.*start == *start - 1 (因為 Biopython 中的每個起始位置都是從 0 開始的)

HSP.aln_span ==  query-end - query-start

匹配或位置的類型(例如,hmmer3-match、hmmer3-location、coils-match、panther-location)儲存在 hit.attributes[‘Hit type’] 中。例如,對於每個「phobious-match」,都會有一個「phobious-location」。因此,Hit.type 將儲存不包含「-match」或「-location」的字串(在本例中為「phobious」)。