Bio.SeqIO.InsdcIO 模組

Bio.SeqIO 支援 “genbank” 和 “embl” 檔案格式。

您應該透過 Bio.SeqIO 函數使用此模組。請注意,此模組內部會呼叫 Bio.GenBank 來進行 GenBank、EMBL 和 IMGT 檔案的實際解析。

另請參閱:國際核苷酸序列資料庫合作組織 http://www.insdc.org/

GenBank http://www.ncbi.nlm.nih.gov/Genbank/

EMBL 核苷酸序列資料庫 http://www.ebi.ac.uk/embl/

DDBJ (日本 DNA 資料庫) http://www.ddbj.nig.ac.jp/

IMGT (使用 EMBL 格式的變體,具有較長的特徵縮排) http://imgt.cines.fr/download/LIGM-DB/userman_doc.html http://imgt.cines.fr/download/LIGM-DB/ftable_doc.html http://www.ebi.ac.uk/imgt/hla/docs/manual.html

class Bio.SeqIO.InsdcIO.GenBankIterator(source)

基底類別:SequenceIterator

GenBank 檔案的解析器。

__init__(source)

將 Genbank 檔案分解為 SeqRecord 物件。

參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。

請注意,對於基因體或染色體,通常只有一個記錄。

這是由 Bio.SeqIO 內部針對 GenBank 檔案格式呼叫的

>>> from Bio import SeqIO
>>> for record in SeqIO.parse("GenBank/cor6_6.gb", "gb"):
...     print(record.id)
...
X55053.1
X62281.1
M81224.1
AJ237582.1
L31939.1
AF297471.1

等效於:

>>> with open("GenBank/cor6_6.gb") as handle:
...     for record in GenBankIterator(handle):
...         print(record.id)
...
X55053.1
X62281.1
M81224.1
AJ237582.1
L31939.1
AF297471.1
parse(handle)

開始解析檔案,並返回 SeqRecord 產生器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.EmblIterator(source)

基底類別:SequenceIterator

EMBL 檔案的解析器。

__init__(source)

將 EMBL 檔案分解為 SeqRecord 物件。

參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。

請注意,對於基因體或染色體,通常只有一個記錄。

這是由 Bio.SeqIO 內部針對 EMBL 檔案格式呼叫的

>>> from Bio import SeqIO
>>> for record in SeqIO.parse("EMBL/epo_prt_selection.embl", "embl"):
...     print(record.id)
...
A00022.1
A00028.1
A00031.1
A00034.1
A00060.1
A00071.1
A00072.1
A00078.1
CQ797900.1

等效於:

>>> with open("EMBL/epo_prt_selection.embl") as handle:
...     for record in EmblIterator(handle):
...         print(record.id)
...
A00022.1
A00028.1
A00031.1
A00034.1
A00060.1
A00071.1
A00072.1
A00078.1
CQ797900.1
parse(handle)

開始解析檔案,並返回 SeqRecord 產生器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.ImgtIterator(source)

基底類別:SequenceIterator

IMGT 檔案的解析器。

__init__(source)

將 IMGT 檔案分解為 SeqRecord 物件。

參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。從 LOCUS 行到終止符號 // 的每個區段都會變成一個具有相關註解和特徵的單一 SeqRecord。

請注意,對於基因體或染色體,通常只有一個記錄。

parse(handle)

開始解析檔案,並返回 SeqRecord 產生器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.GenBankCdsFeatureIterator(source)

基底類別:SequenceIterator

GenBank 檔案的解析器,為每個 CDS 特徵建立一個 SeqRecord。

__init__(source)

將 Genbank 檔案分解為每個 CDS 特徵的 SeqRecord 物件。

參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。

從 LOCUS 行到終止符號 // 的每個區段都可能包含許多 CDS 特徵。這些會與指定的胺基酸翻譯序列 (如果有的話) 一起返回。

parse(handle)

開始解析檔案,並返回 SeqRecord 產生器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.EmblCdsFeatureIterator(source)

基底類別:SequenceIterator

EMBL 檔案的解析器,為每個 CDS 特徵建立一個 SeqRecord。

__init__(source)

將 EMBL 檔案分解為每個 CDS 特徵的 SeqRecord 物件。

參數 source 是一個以文字模式開啟的檔案類物件或檔案路徑。

從 LOCUS 行到終止符號 // 的每個區段都可能包含許多 CDS 特徵。這些會與指定的胺基酸翻譯序列 (如果有的話) 一起返回。

parse(handle)

開始解析檔案,並返回 SeqRecord 產生器。

__abstractmethods__ = frozenset({})
__parameters__ = ()
class Bio.SeqIO.InsdcIO.GenBankWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基底類別:_InsdcWriter

GenBank 寫入器。

HEADER_WIDTH = 12
QUALIFIER_INDENT = 21
STRUCTURED_COMMENT_START = '-START##'
STRUCTURED_COMMENT_END = '-END##'
STRUCTURED_COMMENT_DELIM = ' :: '
LETTERS_PER_LINE = 60
SEQUENCE_INDENT = 9
write_record(record)

將單一記錄寫入輸出檔案。

class Bio.SeqIO.InsdcIO.EmblWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基底類別:_InsdcWriter

EMBL 寫入器。

HEADER_WIDTH = 5
QUALIFIER_INDENT = 21
QUALIFIER_INDENT_STR = 'FT                   '
QUALIFIER_INDENT_TMP = 'FT   %s                '
FEATURE_HEADER = 'FH   Key             Location/Qualifiers\nFH\n'
LETTERS_PER_BLOCK = 10
BLOCKS_PER_LINE = 6
LETTERS_PER_LINE = 60
POSITION_PADDING = 10
write_record(record)

將單一記錄寫入輸出檔案。

class Bio.SeqIO.InsdcIO.ImgtWriter(target: IO | PathLike | str | bytes, mode: str = 'w')

基於:EmblWriter

IMGT 寫入器(EMBL 格式變體)。

HEADER_WIDTH = 5
QUALIFIER_INDENT = 25
QUALIFIER_INDENT_STR = 'FT                       '
QUALIFIER_INDENT_TMP = 'FT   %s                    '
FEATURE_HEADER = 'FH   Key                 Location/Qualifiers\nFH\n'