Bio.SwissProt 套件
子模組
模組內容
用於處理 SwissProt 的 sprotXX.dat 檔案的程式碼。
https://web.expasy.org/docs/userman.html
- 類別
Record 保存 SwissProt 資料。
Reference 保存 SwissProt 紀錄中的參考資料。
- 函數
read 讀取一個 SwissProt 紀錄
parse 讀取多個 SwissProt 紀錄
- exception Bio.SwissProt.SwissProtParserError(*args, line=None)
基礎:
ValueError
在解析 SwissProt 檔案時發生錯誤。
- __init__(*args, line=None)
建立一個 SwissProtParserError 物件,並包含錯誤行。
- class Bio.SwissProt.Record
基礎:
object
保存來自 SwissProt 紀錄的資訊。
- 屬性
entry_name 此項目的名稱,例如 RL1_ECOLI。
data_class 為「STANDARD」或「PRELIMINARY」。
molecule_type 分子類型,'PRT'。
sequence_length 殘基數。
accessions 登錄號的清單,例如 ['P00321']
created (日期,版本) 的元組。
sequence_update (日期,版本) 的元組。
annotation_update (日期,版本) 的元組。
description 自由格式描述。
- gene_name 一個字典清單,包含 'Name'、'Synonyms'、
'OrderedLocusNames' 和 'ORFNames' 的鍵。
organism 序列的來源。
organelle 序列的起源。
organism_classification 分類學分類。字串清單。(http://www.ncbi.nlm.nih.gov/Taxonomy/)
taxonomy_id NCBI 分類 ID 的清單。
host_organism 如果有的話,病毒宿主名稱的清單。
host_taxonomy_id 如果有的話,宿主的 NCBI 分類 ID 清單。
references Reference 物件的清單。
comments 字串清單。
cross_references 元組清單 (db, id1[, id2][, id3])。請參閱文件。
keywords 關鍵字的清單。
features 元組清單 (關鍵字名稱、起始位置、結束位置、描述)。起始位置和結束位置可以是殘基數字的整數、'<'、'>' 或 '?'
protein_existence 描述蛋白質存在證據的數值。
seqinfo (長度、分子量、CRC32 值) 的元組
sequence 序列。
範例
>>> from Bio import SwissProt >>> example_filename = "SwissProt/P68308.txt" >>> with open(example_filename) as handle: ... records = SwissProt.parse(handle) ... for record in records: ... print(record.entry_name) ... print(record.accessions) ... print(record.keywords) ... print(record.organism) ... print(record.sequence[:20] + "...") ... NU3M_BALPH ['P68308', 'P24973'] ['Electron transport', 'Membrane', 'Mitochondrion', 'Mitochondrion inner membrane', 'NAD', 'Respiratory chain', 'Translocase', 'Transmembrane', 'Transmembrane helix', 'Transport', 'Ubiquinone'] Balaenoptera physalus (Fin whale) (Balaena physalus). MNLLLTLLTNTTLALLLVFI...
- __init__()
初始化類別。
- class Bio.SwissProt.Reference
基礎:
object
保存 SwissProt 條目中一個參考的資訊。
- 屬性
number 條目中參考的編號。
evidence 證據碼。字串清單。
positions 描述工作範圍。字串清單。
comments 註解。 (token, text) 的清單。
references 參考文獻。 (dbname, identifier) 的清單。
authors 此作品的作者。
title 此作品的標題。
location 此作品的引用。
- __init__()
初始化類別。
- class Bio.SwissProt.FeatureTable(location=None, type='', id='<unknown id>', qualifiers=None, sub_features=None)
基礎:
SeqFeature
儲存序列特定區域的特徵註解。
這是 Bio.SeqFeature 中定義的 SeqFeature 的子類別,其屬性使用方式如下
location
:特徵在正規或異構體序列上的位置;位置儲存為 Bio.SeqFeature 中定義的 SimpleLocation 的實例,其中 ref 屬性設定為異構體 ID,指向特徵定義所在的正規或異構體序列id
:唯一且穩定的識別碼 (FTId),僅提供給屬於 CARBOHYD、CHAIN、PEPTIDE、PROPEP、VARIANT 或 VAR_SEQ 類型的特徵type
:表示特徵類型,由 UniProt 知識庫文件定義ACT_SITE:參與酶活性的氨基酸
BINDING:任何化學基團的結合位點
CARBOHYD:醣基化位點;如果有在 GlyConnect 資料庫中註解,則會提供 FTId 識別碼
CA_BIND:鈣結合區域
CHAIN:成熟蛋白質中的多肽鏈
COILED:螺旋狀區域
COMPBIAS:組成偏向的區域
CONFLICT:不同來源報告不同的序列
CROSSLNK:轉譯後形成的氨基酸鍵
DISULFID:二硫鍵
DNA_BIND:DNA 結合區域
DOMAIN:定義為組織成特徵三維結構或摺疊的二級結構的特定組合的網域
INIT_MET:起始甲硫氨酸
INTRAMEM:位於膜內但不穿過膜的區域
HELIX:α、3(10)- 或 pi-螺旋二級結構
LIPID:脂質部分的共價結合
METAL:金屬離子的結合位點
MOD_RES:殘基的轉譯後修飾 (PTM),由 UniProt 網站上的 ptmlist.txt 文件定義的受控詞彙註解
MOTIF:具有生物意義的短序列模體
MUTAGEN:透過誘變實驗改變的位點
NON_CONS:非連續殘基
NON_STD:非標準氨基酸
NON_TER:序列末端的殘基不是末端殘基
NP_BIND:核苷酸磷酸結合區域
PEPTIDE:釋放的活性成熟多肽
PROPEP:任何經過處理的前肽
REGION:序列中感興趣的區域
REPEAT:內部序列重複
SIGNAL:信號序列 (前肽)
SITE:不是由另一個特徵鍵表示的感興趣的氨基酸位點
STRAND:β-股二級結構;氫鍵延伸的 β-股或分離 β-橋中的殘基
TOPO_DOM:拓撲網域
TRANSIT:轉運肽 (粒線體、葉綠體、類囊體、藍藻體、過氧化酶體等)
TRANSMEM:跨膜區域
TURN:氫鍵轉角 (3-、4- 或 5-轉角)
UNSURE:序列中的不確定性
VARIANT:序列變異體;對於人科 (大型猿猴和人類) 的蛋白質序列變異體會提供 FTId
VAR_SEQ:由替代剪接、替代啟動子使用、替代起始或核糖體移碼產生的序列變異體
ZN_FING:鋅指區域
qualifiers
:一個包含額外資訊的字典,可能包括特徵證據和自由文字註釋。雖然 SwissProt 將特徵識別碼 (FTId) 作為限定詞包含在內,但它會儲存為 FeatureTable 物件的 ID 屬性。
- Bio.SwissProt.parse(source)
從檔案讀取多個 SwissProt 紀錄。
參數 source 是一個類檔案物件或檔案路徑。
返回一個產生器物件,該物件會產生 Bio.SwissProt.Record() 物件。
- Bio.SwissProt.read(source)
從檔案讀取一個 SwissProt 紀錄。
參數 source 是一個類檔案物件或檔案路徑。
返回一個 Record() 物件。