Bio.AlignIO.MafIO 模組

Bio.AlignIO 支援 “maf” 多重比對格式。

多重比對格式 (Multiple Alignment Format),由 UCSC 描述,將一系列多重比對儲存在單一檔案中。它適用於全基因體對全基因體的比對,並且可以儲存來源染色體、起始位置、大小和鏈等元數據。

請參閱 http://genome.ucsc.edu/FAQ/FAQformat.html#format5

您應該透過 Bio.AlignIO 函式(或如果您想直接使用間隔序列,則透過 Bio.SeqIO 函式)使用此模組。

MAF 格式中的座標以零起始的位置(如 Python)和比對區域大小定義。

長度為 1 且從來源序列第一個位置開始的最小比對區域將具有 start == 0size == 1

正如我們在這個範例中看到的,start + size 將給出比零起始結束位置大 1 的值。因此,我們可以將 startstart + size 當作 Python 列表切片的邊界來操作。

對於包含結束座標,我們需要使用 end = start + size - 1。1 欄寬的比對將具有 start == end

class Bio.AlignIO.MafIO.MafWriter(handle)

基底類別:SequentialAlignmentWriter

接受 MultipleSeqAlignment 物件,寫入 MAF 檔案。

write_header()

寫入 MAF 標頭。

write_alignment(alignment)

將完整的比對寫入 MAF 區塊。

將 MultipleSeqAlignment 物件中的每個 SeqRecord 寫入其自己的 MAF 區塊(以 'a' 行開頭,包含 's' 行)。

Bio.AlignIO.MafIO.MafIterator(handle, seq_count=None)

將 MAF 檔案控制代碼迭代為 MultipleSeqAlignment 物件。

迭代類似檔案物件 (控制代碼) 的 MAF 檔案中的行,產生 MultipleSeqAlignment 物件。SeqRecord ID 通常對應於物種名稱。

class Bio.AlignIO.MafIO.MafIndex(sqlite_file, maf_file, target_seqname)

基底類別:object

MAF 檔案的索引。

索引是一個 sqlite3 資料庫,如果需要,它會在建立物件時建立,並在使用 searchget_spliced 方法時查詢。

__init__(sqlite_file, maf_file, target_seqname)

索引或載入 MAF 檔案的索引。

close()

關閉用於讀取資料的檔案控制代碼。

一旦呼叫,索引的進一步使用將不起作用。此方法的唯一目的是允許明確關閉控制代碼 - 例如,如果您想刪除該檔案,在 Windows 上您必須先關閉所有該檔案的開啟控制代碼。

search(starts, ends)

在索引資料庫中搜尋與提供的範圍重疊的 MAF 記錄。

依開始、結束,然後是內部偏移欄位的順序傳回 MultipleSeqAlignment 結果。

starts 應該是參考中片段的 0 開始座標的列表。ends 應該是相應片段的結束列表(在半開的 UCSC 慣例中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。

get_spliced(starts, ends, strand=1)

傳回所提供精確序列範圍的多重比對。

接受 target_seqname 上起始和結束位置的兩個列表,代表要以電腦模擬接合的外顯子。傳回所需接合序列的 MultipleSeqAlignment

starts 應該是參考中片段的 0 開始座標的列表。ends 應該是相應片段的結束列表(在半開的 UCSC 慣例中:http://genome.ucsc.edu/blog/the-ucsc-genome-browser-coordinate-counting-systems/)。

若要要求對應於參考序列前 100 個核苷酸的比對部分,您可以使用 search([0], [100])

__repr__()

傳回索引的字串表示。

__len__()

傳回索引中的記錄數。