Bio.Sequencing.Ace 模組
用於解析 PHRAP 輸出的 ACE 檔案。
由 Frank Kauff (fkauff@duke.edu) 和 Cymon J. Cox (cymon@duke.edu) 編寫
用法
讀取 ACE 檔案有兩種方式
函數 ‘read’ 一次讀取整個檔案;
函數 ‘parse’ 逐個讀取檔案的 contig。
第一種選項,一次解析整個 ACE 檔案
from Bio.Sequencing import Ace
acefilerecord = Ace.read(open('my_ace_file.ace'))
- 這會給你
acefilerecord.ncontigs (ACE 檔案中的 contig 數量)
acefilerecord.nreads (ACE 檔案中的 reads 數量)
acefilerecord.contigs[] (每個 contig 的 Contig 類別的一個實例)
Contig 類別保存了 CO 標籤、CT 和 WA 標籤的資訊,以及用於此 contig 的所有 reads 的 Read 類別的實例列表,例如
contig3 = acefilerecord.contigs[2]
read4 = contig3.reads[3]
RD_of_read4 = read4.rd
DS_of_read4 = read4.ds
檔案結尾的 CT、WA、RT 標籤可以出現在任何位置,並會自動排序到正確的位置。
詳情請參閱 _RecordConsumer。
第二種選項是以通常的方式逐個迭代 ACE 檔案的 contig
from Bio.Sequencing import Ace
contigs = Ace.parse(open('my_ace_file.ace'))
for contig in contigs:
print(contig.name)
...
請注意,為了記憶體效率,當使用迭代器方法時,一次只會在記憶體中保留一個 contig。然而,ACE 檔案可能會有一個包含 WA、CT、RT 或 WR 標籤的頁尾,其中包含 contigs 的額外元數據。由於解析器直到最後一筆記錄才會看到這些資料,因此無法將其加入到適當的記錄中。相反地,這些標籤會與最後的 contig 記錄一起傳回。因此,ACE 檔案並不完全符合迭代的概念。如果需要 WA、CT、RT、WR 標籤,則 ‘read’ 函數可能比 ‘parse’ 函數更適合。
- class Bio.Sequencing.Ace.rd
基底類別:
object
RD (reads),儲存一個 read 及其名稱、序列等。
每個 read 對應的位置和鏈儲存在 AF 行中。
- __init__()
初始化類別。
- class Bio.Sequencing.Ace.qa(line=None)
基底類別:
object
QA (read 品質),包括哪些部分(如果有的話)被用作 consensus。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.ds(line=None)
基底類別:
object
DS 行,包含 read 的 chromatogram 檔案名稱。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.af(line=None)
基底類別:
object
AF 行,定義 read 在 contig 內的位置。
請注意,屬性 coru 是補體 (C) 或未補體 (U) 的縮寫,因為鏈資訊在 ACE 檔案中使用 C 或 U 字元儲存。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.bs(line=None)
基底類別:
object
BS(鹼基片段),哪個 read 被選擇為每個位置的 consensus。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.rt(line=None)
基底類別:
object
RT(暫時讀取標籤),由 crossmatch 和 phrap 產生。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.wa(line=None)
基底類別:
object
WA(整體組裝標籤),保存組裝程式名稱、版本等。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.Reads(line=None)
基底類別:
object
保存關於支援 ACE contig 的 read 的資訊。
- __init__(line=None)
初始化類別。
- class Bio.Sequencing.Ace.Contig(line=None)
基底類別:
object
保存來自 ACE 記錄的 contig 資訊。
- __init__(line=None)
初始化類別。
- Bio.Sequencing.Ace.parse(source)
逐個 contig 迭代 ACE 檔案。
參數 source 為類檔案物件或檔案路徑。
此函式回傳一個迭代器,可讓您逐筆迭代 ACE 檔案記錄
records = parse(source) for record in records: # do something with the record
其中每筆記錄都是一個 Contig 物件。
- class Bio.Sequencing.Ace.ACEFileRecord
基底類別:
object
保存 ACE 檔案的資料。
- __init__()
初始化類別。
- sort()
如果可以,將 wr、rt 和 ct 標籤排序到適當的 contig / read 實例中。
- Bio.Sequencing.Ace.read(handle)
將完整的 ACE 檔案解析成 contig 列表。