Bio.SeqIO.PirIO 模組
Bio.SeqIO 支援 "pir" (又稱 PIR 或 NBRF) 檔案格式。
這個模組用於讀取和寫入 PIR 或 NBRF 格式的檔案,作為 SeqRecord 物件。
您應該透過 Bio.SeqIO 函式使用這個模組,如果檔案包含序列比對,則可選擇透過 Bio.AlignIO 使用。
此格式最初是為蛋白質資訊資源 (PIR) 而引入,PIR 是國家生物醫學研究基金會 (NBRF) 的一個專案。PIR 資料庫本身現在是 UniProt 的一部分。
此檔案格式在線上說明如下: http://www.ebi.ac.uk/help/pir_frame.html http://www.cmbi.kun.nl/bioinf/tools/crab_pir.html (目前無法使用)
此格式的範例檔案如下:
>P1;CRAB_ANAPL
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR
SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH
GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ
SDVPERSIPI TREEKPAIAG AQRK*
>P1;CRAB_BOVIN
ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN).
MDIAIHHPWI RRPFFPFHSP SRLFDQFFGE HLLESDLFPA STSLSPFYLR
PPSFLRAPSW IDTGLSEMRL EKDRFSVNLD VKHFSPEELK VKVLGDVIEV
HGKHEERQDE HGFISREFHR KYRIPADVDP LAITSSLSSD GVLTVNGPRK
QASGPERTIP ITREEKPAVT AAPKK*
或者,多序列比對的範例:
>P1;S27231
rhodopsin - northern leopard frog
MNGTEGPNFY IPMSNKTGVV RSPFDYPQYY LAEPWKYSVL AAYMFLLILL GLPINFMTLY
VTIQHKKLRT PLNYILLNLG VCNHFMVLCG FTITMYTSLH GYFVFGQTGC YFEGFFATLG
GEIALWSLVV LAIERYIVVC KPMSNFRFGE NHAMMGVAFT WIMALACAVP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFVV HFLIPLIIIS FCYGRLVCTV KEAAAQQQES
ATTQKAEKEV TRMVIIMVIF FLICWVPYAY VAFYIFTHQG SEFGPIFMTV PAFFAKSSAI
YNPVIYIMLN KQFRNCMITT LCCGKNPFGD DDASSAATSK TEATSVSTSQ VSPA*
>P1;I51200
rhodopsin - African clawed frog
MNGTEGPNFY VPMSNKTGVV RSPFDYPQYY LAEPWQYSAL AAYMFLLILL GLPINFMTLF
VTIQHKKLRT PLNYILLNLV FANHFMVLCG FTVTMYTSMH GYFIFGPTGC YIEGFFATLG
GEVALWSLVV LAVERYIVVC KPMANFRFGE NHAIMGVAFT WIMALSCAAP PLFGWSRYIP
EGMQCSCGVD YYTLKPEVNN ESFVIYMFIV HFTIPLIVIF FCYGRLLCTV KEAAAQQQES
LTTQKAEKEV TRMVVIMVVF FLICWVPYAY VAFYIFTHQG SNFGPVFMTV PAFFAKSSAI
YNPVIYIVLN KQFRNCLITT LCCGKNPFGD EDGSSAATSK TEASSVSSSQ VSPA*
>P1;JN0120
rhodopsin - Japanese lamprey
MNGTEGDNFY VPFSNKTGLA RSPYEYPQYY LAEPWKYSAL AAYMFFLILV GFPVNFLTLF
VTVQHKKLRT PLNYILLNLA MANLFMVLFG FTVTMYTSMN GYFVFGPTMC SIEGFFATLG
GEVALWSLVV LAIERYIVIC KPMGNFRFGN THAIMGVAFT WIMALACAAP PLVGWSRYIP
EGMQCSCGPD YYTLNPNFNN ESYVVYMFVV HFLVPFVIIF FCYGRLLCTV KEAAAAQQES
ASTQKAEKEV TRMVVLMVIG FLVCWVPYAS VAFYIFTHQG SDFGATFMTL PAFFAKSSAL
YNPVIYILMN KQFRNCMITT LCCGKNPLGD DE-SGASTSKT EVSSVSTSPV SPA*
與 FASTA 格式一樣,每個記錄都以 “>” 字元開頭的行開始。然後是兩個字母的序列類型 (P1、F1、DL、DC、RL、RC 或 XX)、一個分號和識別碼。第二行是自由文字描述。其餘行包含序列本身,以星號結尾。如上所示,以空格分隔的十個字母區塊是典型的。
- 序列代碼及其含義
P1 - 蛋白質 (完整)
F1 - 蛋白質 (片段)
D1 - DNA (例如 EMBOSS seqret 輸出)
DL - DNA (線性)
DC - DNA (環狀)
RL - RNA (線性)
RC - RNA (環狀)
N3 - tRNA
N1 - 其他功能性 RNA
XX - 未知
- class Bio.SeqIO.PirIO.PirIterator(source)
基底類別:
SequenceIterator
PIR 檔案的剖析器。
- __init__(source)
迭代 PIR 檔案並產生 SeqRecord 物件。
source - 類檔案物件或檔案路徑。
範例
>>> with open("NBRF/DMB_prot.pir") as handle: ... for record in PirIterator(handle): ... print("%s length %i" % (record.id, len(record))) HLA:HLA00489 length 263 HLA:HLA00490 length 94 HLA:HLA00491 length 94 HLA:HLA00492 length 80 HLA:HLA00493 length 175 HLA:HLA01083 length 188
- parse(handle)
開始剖析檔案,並傳回 SeqRecord 產生器。
- iterate(handle)
迭代 PIR 檔案中的記錄。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.PirIO.PirWriter(handle, wrap=60, record2title=None, code=None)
基底類別:
SequenceWriter
用於寫入 PIR 格式檔案的類別。
- __init__(handle, wrap=60, record2title=None, code=None)
建立 PIR 寫入器。
- 引數
handle - 輸出檔案的控制代碼,例如由 open(filename, “w”) 傳回的控制代碼
wrap - 用於包裝序列行的可選行長度。預設為將序列包裝在 60 個字元處。使用零 (或 None) 表示不包裝,為序列提供單個長行。
record2title - 可選函式,用於傳回每個記錄的標題行要使用的文字。預設情況下,會使用 record.id、record.name 和 record.description 的組合。
code - 可選序列代碼必須是 P1、F1、D1、DL、DC、RL、RC、N3 和 XX 之一。預設使用 None,這表示根據記錄註釋中的分子類型自動偵測。
您可以選擇使用
handle = open(filename, "w") writer = PirWriter(handle) writer.write_file(myRecords) handle.close()
或者,遵循循序檔案寫入器系統,例如:
handle = open(filename, "w") writer = PirWriter(handle) writer.write_header() # does nothing for PIR files ... Multiple writer.write_record() and/or writer.write_records() calls ... writer.write_footer() # does nothing for PIR files handle.close()
- write_record(record)
將單個 PIR 記錄寫入檔案。