Bio.AlignIO.MafIO 模組
Bio.AlignIO 支援 “maf” 多重比對格式。
多重比對格式 (Multiple Alignment Format),由 UCSC 描述,將一系列多重比對儲存在單一檔案中。它適用於全基因體對全基因體的比對,並且可以儲存來源染色體、起始位置、大小和鏈等元數據。
請參閱 http://genome.ucsc.edu/FAQ/FAQformat.html#format5
您應該透過 Bio.AlignIO 函式(或如果您想直接使用間隔序列,則透過 Bio.SeqIO 函式)使用此模組。
MAF 格式中的座標以零起始的位置(如 Python)和比對區域大小定義。
長度為 1 且從來源序列第一個位置開始的最小比對區域將具有 start == 0
和 size == 1
。
正如我們在這個範例中看到的,start + size
將給出比零起始結束位置大 1 的值。因此,我們可以將 start
和 start + size
當作 Python 列表切片的邊界來操作。
對於包含結束座標,我們需要使用 end = start + size - 1
。1 欄寬的比對將具有 start == end
。
- class Bio.AlignIO.MafIO.MafWriter(handle)
基底類別:
SequentialAlignmentWriter
接受 MultipleSeqAlignment 物件,寫入 MAF 檔案。
- write_header()
寫入 MAF 標頭。
- write_alignment(alignment)
將完整的比對寫入 MAF 區塊。
將 MultipleSeqAlignment 物件中的每個 SeqRecord 寫入其自己的 MAF 區塊(以 'a' 行開頭,包含 's' 行)。
- Bio.AlignIO.MafIO.MafIterator(handle, seq_count=None)
將 MAF 檔案控制代碼迭代為 MultipleSeqAlignment 物件。
迭代類似檔案物件 (控制代碼) 的 MAF 檔案中的行,產生 MultipleSeqAlignment 物件。SeqRecord ID 通常對應於物種名稱。
- class Bio.AlignIO.MafIO.MafIndex(sqlite_file, maf_file, target_seqname)
基底類別:
object
MAF 檔案的索引。
索引是一個 sqlite3 資料庫,如果需要,它會在建立物件時建立,並在使用 search 或 get_spliced 方法時查詢。
- __init__(sqlite_file, maf_file, target_seqname)
索引或載入 MAF 檔案的索引。
- close()
關閉用於讀取資料的檔案控制代碼。
一旦呼叫,索引的進一步使用將不起作用。此方法的唯一目的是允許明確關閉控制代碼 - 例如,如果您想刪除該檔案,在 Windows 上您必須先關閉所有該檔案的開啟控制代碼。
- search(starts, ends)
在索引資料庫中搜尋與提供的範圍重疊的 MAF 記錄。
依開始、結束,然後是內部偏移欄位的順序傳回 MultipleSeqAlignment 結果。
starts 應該是參考中片段的 0 開始座標的列表。ends 應該是相應片段的結束列表(在半開的 UCSC 慣例中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。
- get_spliced(starts, ends, strand=1)
傳回所提供精確序列範圍的多重比對。
接受 target_seqname 上起始和結束位置的兩個列表,代表要以電腦模擬接合的外顯子。傳回所需接合序列的 MultipleSeqAlignment 。
starts 應該是參考中片段的 0 開始座標的列表。ends 應該是相應片段的結束列表(在半開的 UCSC 慣例中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。
若要要求對應於參考序列前 100 個核苷酸的比對部分,您可以使用
search([0], [100])
- __repr__()
傳回索引的字串表示。
- __len__()
傳回索引中的記錄數。