Bio.SeqIO.InsdcIO 模組
Bio.SeqIO 支援 “genbank” 和 “embl” 檔案格式。
您應該透過 Bio.SeqIO 函數使用此模組。請注意,此模組內部會呼叫 Bio.GenBank 來進行 GenBank、EMBL 和 IMGT 檔案的實際解析。
另請參閱:國際核苷酸序列資料庫合作組織 http://www.insdc.org/
GenBank http://www.ncbi.nlm.nih.gov/Genbank/
EMBL 核苷酸序列資料庫 http://www.ebi.ac.uk/embl/
DDBJ (日本 DNA 資料庫) http://www.ddbj.nig.ac.jp/
IMGT (使用 EMBL 格式的變體,具有較長的特徵縮排) http://imgt.cines.fr/download/LIGM-DB/userman_doc.html http://imgt.cines.fr/download/LIGM-DB/ftable_doc.html http://www.ebi.ac.uk/imgt/hla/docs/manual.html
- class Bio.SeqIO.InsdcIO.GenBankIterator(source)
基底類別:
SequenceIterator
GenBank 檔案的解析器。
- __init__(source)
將 Genbank 檔案分解為 SeqRecord 物件。
參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。
請注意,對於基因體或染色體,通常只有一個記錄。
這是由 Bio.SeqIO 內部針對 GenBank 檔案格式呼叫的
>>> from Bio import SeqIO >>> for record in SeqIO.parse("GenBank/cor6_6.gb", "gb"): ... print(record.id) ... X55053.1 X62281.1 M81224.1 AJ237582.1 L31939.1 AF297471.1
等效於:
>>> with open("GenBank/cor6_6.gb") as handle: ... for record in GenBankIterator(handle): ... print(record.id) ... X55053.1 X62281.1 M81224.1 AJ237582.1 L31939.1 AF297471.1
- parse(handle)
開始解析檔案,並返回 SeqRecord 產生器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.EmblIterator(source)
基底類別:
SequenceIterator
EMBL 檔案的解析器。
- __init__(source)
將 EMBL 檔案分解為 SeqRecord 物件。
參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。
請注意,對於基因體或染色體,通常只有一個記錄。
這是由 Bio.SeqIO 內部針對 EMBL 檔案格式呼叫的
>>> from Bio import SeqIO >>> for record in SeqIO.parse("EMBL/epo_prt_selection.embl", "embl"): ... print(record.id) ... A00022.1 A00028.1 A00031.1 A00034.1 A00060.1 A00071.1 A00072.1 A00078.1 CQ797900.1
等效於:
>>> with open("EMBL/epo_prt_selection.embl") as handle: ... for record in EmblIterator(handle): ... print(record.id) ... A00022.1 A00028.1 A00031.1 A00034.1 A00060.1 A00071.1 A00072.1 A00078.1 CQ797900.1
- parse(handle)
開始解析檔案,並返回 SeqRecord 產生器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.ImgtIterator(source)
基底類別:
SequenceIterator
IMGT 檔案的解析器。
- __init__(source)
將 IMGT 檔案分解為 SeqRecord 物件。
參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。
請注意,對於基因體或染色體,通常只有一個記錄。
- parse(handle)
開始解析檔案,並返回 SeqRecord 產生器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.GenBankCdsFeatureIterator(source)
基底類別:
SequenceIterator
GenBank 檔案的解析器,為每個 CDS 特徵建立一個 SeqRecord。
- __init__(source)
將 Genbank 檔案分解為每個 CDS 特徵的 SeqRecord 物件。
參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。
從 LOCUS 行到終止符號 // 的每個區段都可能包含許多 CDS 特徵。這些會與指定的胺基酸翻譯序列 (如果有的話) 一起返回。
- parse(handle)
開始解析檔案,並返回 SeqRecord 產生器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.EmblCdsFeatureIterator(source)
基底類別:
SequenceIterator
EMBL 檔案的解析器,為每個 CDS 特徵建立一個 SeqRecord。
- __init__(source)
將 EMBL 檔案分解為每個 CDS 特徵的 SeqRecord 物件。
參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。
從 LOCUS 行到終止符號 // 的每個區段都可能包含許多 CDS 特徵。這些會與指定的胺基酸翻譯序列 (如果有的話) 一起返回。
- parse(handle)
開始解析檔案,並返回 SeqRecord 產生器。
- __abstractmethods__ = frozenset({})
- __parameters__ = ()
- class Bio.SeqIO.InsdcIO.GenBankWriter(target: IO | PathLike | str | bytes, mode: str = 'w')
基底類別:
_InsdcWriter
GenBank 寫入器。
- HEADER_WIDTH = 12
- QUALIFIER_INDENT = 21
- STRUCTURED_COMMENT_START = '-START##'
- STRUCTURED_COMMENT_END = '-END##'
- STRUCTURED_COMMENT_DELIM = ' :: '
- LETTERS_PER_LINE = 60
- SEQUENCE_INDENT = 9
- write_record(record)
將單一記錄寫入輸出檔案。
- class Bio.SeqIO.InsdcIO.EmblWriter(target: IO | PathLike | str | bytes, mode: str = 'w')
基底類別:
_InsdcWriter
EMBL 寫入器。
- HEADER_WIDTH = 5
- QUALIFIER_INDENT = 21
- QUALIFIER_INDENT_STR = 'FT '
- QUALIFIER_INDENT_TMP = 'FT %s '
- FEATURE_HEADER = 'FH Key Location/Qualifiers\nFH\n'
- LETTERS_PER_BLOCK = 10
- BLOCKS_PER_LINE = 6
- LETTERS_PER_LINE = 60
- POSITION_PADDING = 10
- write_record(record)
將單一記錄寫入輸出檔案。