Bio.SwissProt 套件

子模組

模組內容

用於處理 SwissProt 的 sprotXX.dat 檔案的程式碼。

https://web.expasy.org/docs/userman.html

類別
  • Record 保存 SwissProt 資料。

  • Reference 保存 SwissProt 紀錄中的參考資料。

函數
  • read 讀取一個 SwissProt 紀錄

  • parse 讀取多個 SwissProt 紀錄

exception Bio.SwissProt.SwissProtParserError(*args, line=None)

基礎:ValueError

在解析 SwissProt 檔案時發生錯誤。

__init__(*args, line=None)

建立一個 SwissProtParserError 物件,並包含錯誤行。

class Bio.SwissProt.Record

基礎:object

保存來自 SwissProt 紀錄的資訊。

屬性
  • entry_name 此項目的名稱,例如 RL1_ECOLI。

  • data_class 為「STANDARD」或「PRELIMINARY」。

  • molecule_type 分子類型,'PRT'。

  • sequence_length 殘基數。

  • accessions 登錄號的清單,例如 ['P00321']

  • created (日期,版本) 的元組。

  • sequence_update (日期,版本) 的元組。

  • annotation_update (日期,版本) 的元組。

  • description 自由格式描述。

  • gene_name 一個字典清單,包含 'Name'、'Synonyms'、

    'OrderedLocusNames' 和 'ORFNames' 的鍵。

  • organism 序列的來源。

  • organelle 序列的起源。

  • organism_classification 分類學分類。字串清單。(http://www.ncbi.nlm.nih.gov/Taxonomy/)

  • taxonomy_id NCBI 分類 ID 的清單。

  • host_organism 如果有的話,病毒宿主名稱的清單。

  • host_taxonomy_id 如果有的話,宿主的 NCBI 分類 ID 清單。

  • references Reference 物件的清單。

  • comments 字串清單。

  • cross_references 元組清單 (db, id1[, id2][, id3])。請參閱文件。

  • keywords 關鍵字的清單。

  • features 元組清單 (關鍵字名稱、起始位置、結束位置、描述)。起始位置和結束位置可以是殘基數字的整數、'<'、'>' 或 '?'

  • protein_existence 描述蛋白質存在證據的數值。

  • seqinfo (長度、分子量、CRC32 值) 的元組

  • sequence 序列。

範例

>>> from Bio import SwissProt
>>> example_filename = "SwissProt/P68308.txt"
>>> with open(example_filename) as handle:
...     records = SwissProt.parse(handle)
...     for record in records:
...         print(record.entry_name)
...         print(record.accessions)
...         print(record.keywords)
...         print(record.organism)
...         print(record.sequence[:20] + "...")
...
NU3M_BALPH
['P68308', 'P24973']
['Electron transport', 'Membrane', 'Mitochondrion', 'Mitochondrion inner membrane', 'NAD', 'Respiratory chain', 'Translocase', 'Transmembrane', 'Transmembrane helix', 'Transport', 'Ubiquinone']
Balaenoptera physalus (Fin whale) (Balaena physalus).
MNLLLTLLTNTTLALLLVFI...
__init__()

初始化類別。

class Bio.SwissProt.Reference

基礎:object

保存 SwissProt 條目中一個參考的資訊。

屬性
  • number 條目中參考的編號。

  • evidence 證據碼。字串清單。

  • positions 描述工作範圍。字串清單。

  • comments 註解。 (token, text) 的清單。

  • references 參考文獻。 (dbname, identifier) 的清單。

  • authors 此作品的作者。

  • title 此作品的標題。

  • location 此作品的引用。

__init__()

初始化類別。

class Bio.SwissProt.FeatureTable(location=None, type='', id='<unknown id>', qualifiers=None, sub_features=None)

基礎:SeqFeature

儲存序列特定區域的特徵註解。

這是 Bio.SeqFeature 中定義的 SeqFeature 的子類別,其屬性使用方式如下

  • location:特徵在正規或異構體序列上的位置;位置儲存為 Bio.SeqFeature 中定義的 SimpleLocation 的實例,其中 ref 屬性設定為異構體 ID,指向特徵定義所在的正規或異構體序列

  • id:唯一且穩定的識別碼 (FTId),僅提供給屬於 CARBOHYD、CHAIN、PEPTIDE、PROPEP、VARIANT 或 VAR_SEQ 類型的特徵

  • type:表示特徵類型,由 UniProt 知識庫文件定義

    • ACT_SITE:參與酶活性的氨基酸

    • BINDING:任何化學基團的結合位點

    • CARBOHYD:醣基化位點;如果有在 GlyConnect 資料庫中註解,則會提供 FTId 識別碼

    • CA_BIND:鈣結合區域

    • CHAIN:成熟蛋白質中的多肽鏈

    • COILED:螺旋狀區域

    • COMPBIAS:組成偏向的區域

    • CONFLICT:不同來源報告不同的序列

    • CROSSLNK:轉譯後形成的氨基酸鍵

    • DISULFID:二硫鍵

    • DNA_BIND:DNA 結合區域

    • DOMAIN:定義為組織成特徵三維結構或摺疊的二級結構的特定組合的網域

    • INIT_MET:起始甲硫氨酸

    • INTRAMEM:位於膜內但不穿過膜的區域

    • HELIX:α、3(10)- 或 pi-螺旋二級結構

    • LIPID:脂質部分的共價結合

    • METAL:金屬離子的結合位點

    • MOD_RES:殘基的轉譯後修飾 (PTM),由 UniProt 網站上的 ptmlist.txt 文件定義的受控詞彙註解

    • MOTIF:具有生物意義的短序列模體

    • MUTAGEN:透過誘變實驗改變的位點

    • NON_CONS:非連續殘基

    • NON_STD:非標準氨基酸

    • NON_TER:序列末端的殘基不是末端殘基

    • NP_BIND:核苷酸磷酸結合區域

    • PEPTIDE:釋放的活性成熟多肽

    • PROPEP:任何經過處理的前肽

    • REGION:序列中感興趣的區域

    • REPEAT:內部序列重複

    • SIGNAL:信號序列 (前肽)

    • SITE:不是由另一個特徵鍵表示的感興趣的氨基酸位點

    • STRAND:β-股二級結構;氫鍵延伸的 β-股或分離 β-橋中的殘基

    • TOPO_DOM:拓撲網域

    • TRANSIT:轉運肽 (粒線體、葉綠體、類囊體、藍藻體、過氧化酶體等)

    • TRANSMEM:跨膜區域

    • TURN:氫鍵轉角 (3-、4- 或 5-轉角)

    • UNSURE:序列中的不確定性

    • VARIANT:序列變異體;對於人科 (大型猿猴和人類) 的蛋白質序列變異體會提供 FTId

    • VAR_SEQ:由替代剪接、替代啟動子使用、替代起始或核糖體移碼產生的序列變異體

    • ZN_FING:鋅指區域

  • qualifiers:一個包含額外資訊的字典,可能包括特徵證據和自由文字註釋。雖然 SwissProt 將特徵識別碼 (FTId) 作為限定詞包含在內,但它會儲存為 FeatureTable 物件的 ID 屬性。

Bio.SwissProt.parse(source)

從檔案讀取多個 SwissProt 紀錄。

參數 source 是一個類檔案物件或檔案路徑。

返回一個產生器物件,該物件會產生 Bio.SwissProt.Record() 物件。

Bio.SwissProt.read(source)

從檔案讀取一個 SwissProt 紀錄。

參數 source 是一個類檔案物件或檔案路徑。

返回一個 Record() 物件。