Bio.PDB.PDBList 模組

透過網路存取 PDB(例如下載結構)。

class Bio.PDB.PDBList.PDBList(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

基礎類別:object

快速存取 PDB 或其鏡像站上的結構列表。

這個類別提供快速存取 PDB 伺服器或其鏡像站上的結構列表。結構列表包含四個字母的 PDB 代碼,表示結構是新的、已修改或已過時。這些列表每週發布一次。

它還提供從伺服器檢索 PDB 檔案的功能。為了正確使用它,請準備一個目錄 /pdb 或類似的目錄,用於儲存 PDB 檔案。

支援所有可用的檔案格式(PDB、PDBx/mmCif、PDBML、mmtf)。請注意,大型結構(包含 >62 個鏈和/或 99999 個 ATOM 行)不再儲存為單個 PDB 檔案,並且預設情況下(當選擇 PDB 格式時)不會下載。

大型結構可以以其他格式下載,包括 PDBx/mmCif 或作為 .tar 檔案(給定結構的 PDB 格式化檔案的集合)。

如果您想從 Proxy 內部使用這個模組,請將 Proxy 變數新增到您的環境中,例如在 Unix 中:export HTTP_PROXY='http://realproxy.charite.de:888'(這也可以新增到 ~/.bashrc)

PDB_REF = '\n    蛋白質資料庫:一個用於巨分子結構的電腦化檔案。\n    F.C.Bernstein, T.F.Koetzle, G.J.B.Williams, E.F.Meyer Jr, M.D.Brice, J.R.Rodgers, O.Kennard, T.Shimanouchi, M.Tasumi\n    J. Mol. Biol. 112 pp. 535-542 (1977)\n    http://www.pdb.org/.\n    '
__init__(server='https://files.wwpdb.org', pdb=None, obsolete_pdb=None, verbose=True)

使用預設伺服器或自訂伺服器初始化類別。

參數 pdb 是要使用的本地路徑,預設為初始化時的當前目錄。

static get_status_list(url)

從給定的 URL 檢索每週 pdb 狀態檔案中的 pdb 代碼列表。

由 get_recent_changes 使用。此方法解析的列表檔案的典型內容現在非常簡單 - 每行一個 PDB 名稱。

get_recent_changes()

傳回三個最新的每週檔案列表(新增、修改、過時)。

從 PDB 伺服器讀取已變更條目的目錄,並傳回三個 URL 的 tuple,這些 URL 指向來自最新列表的新條目、修改條目和過時條目的檔案。使用具有最大數值名稱的目錄。如果出現錯誤,則傳回 None。

資料/狀態目錄的內容(將使用 20031013);

drwxrwxr-x 2 1002 sysadmin 512 Oct 6 18:28 20031006 drwxrwxr-x 2 1002 sysadmin 512 Oct 14 02:14 20031013 -rw-r–r– 1 1002 sysadmin 1327 Mar 12 2001 README

get_all_entries()

檢索包含所有 PDB 條目和一些註釋的大型檔案。

傳回索引檔案中的 PDB 代碼列表。

get_all_obsolete()

傳回 PDB 中所有曾經過時的條目的列表。

傳回 PDB 中所有曾經過時的 pdb 代碼的列表。

從 PDB 伺服器取得並解析檔案,格式如下(使用第一個 pdb_code 列)。檔案看起來像這樣

 LIST OF OBSOLETE COORDINATE ENTRIES AND SUCCESSORS
OBSLTE    31-JUL-94 116L     216L
...
OBSLTE    29-JAN-96 1HFT     2HFT
OBSLTE    21-SEP-06 1HFV     2J5X
OBSLTE    21-NOV-03 1HG6
OBSLTE    18-JUL-84 1HHB     2HHB 3HHB
OBSLTE    08-NOV-96 1HID     2HID
OBSLTE    01-APR-97 1HIU     2HIU
OBSLTE    14-JAN-04 1HKE     1UUZ
...
retrieve_pdb_file(pdb_code, obsolete=False, pdir=None, file_format=None, overwrite=False)

從 PDB 伺服器提取 PDB 結構檔案,並在本地儲存。

PDB 結構的檔案名稱會以單一字串傳回。如果 obsolete == True,檔案將會儲存在特殊的檔案樹中。

注意。預設的下載格式已從 PDB 變更為 PDBx/mmCif

參數:
  • pdb_code (字串) – 來自 PDB 的 4 個符號的結構 ID(例如 3J92)。

  • file_format (字串) –

    檔案格式。可用的選項

    • 「mmCif」(預設,PDBx/mmCif 檔案),

    • 「pdb」(PDB 格式),

    • 「xml」(PDBML/XML 格式),

    • 「mmtf」(高度壓縮),

    • 「bundle」(大型結構的 PDB 格式封存)

  • overwrite (bool) – 如果設定為 True,則會覆寫現有的結構檔案。預設值:False

  • obsolete (bool) – 僅對過時的結構有意義。如果為 True,則將過時的結構下載到「obsolete」資料夾,否則不會執行下載。此選項不適用於 mmtf 格式,因為過時的結構不會儲存在 mmtf 中。當指定參數 pdir 時,也沒有意義。注意:請確保您即將下載的是真正過時的結構。嘗試將非過時的結構下載到過時的資料夾將無法運作,並且您會遇到「結構不存在」的錯誤。預設值:False

  • pdir (字串) – 將檔案放入此目錄(預設:建立 PDB 樣式的目錄樹)

傳回:

檔案名稱

傳回類型:

字串

update_pdb(file_format=None, with_assemblies=False)

更新您在本機的 PDB 檔案副本。

我想這是這個模組中「最想要」的功能。它會取得每週新的和修改過的 pdb 條目列表,並自動下載相應的 PDB 檔案。您可以將此模組作為每週 cron 工作呼叫。

download_pdb_files(pdb_codes: list[str], obsolete: bool = False, pdir: str | None = None, file_format: str | None = None, overwrite: bool = False, max_num_threads: int | None = None)

從 PDB 伺服器取得一組 PDB 結構檔案,並將它們儲存在本地。

參數:
  • pdb_codes – 一個包含 4 個符號的 PDB 結構 ID 的列表

  • obsolete – 僅對已過時的結構有意義。如果為 True,則將過時的結構下載到 'obsolete' 資料夾。否則,將不會執行下載。此選項不適用於 mmtf 格式,因為過時的結構不以 mmtf 形式提供。(預設值:False)

  • pdir – 將檔案放在此目錄中。預設情況下,建立一個 PDB 樣式的目錄樹。

  • file_format

    檔案格式。可用的選項

    • 「mmCif」(預設,PDBx/mmCif 檔案),

    • 「pdb」(PDB 格式),

    • ”xml” (PMDML/XML 格式),

    • 「mmtf」(高度壓縮),

    • ”bundle” (適用於大型結構的 PDB 格式封存檔)。

  • overwrite – 如果設定為 true,現有的結構檔案將被覆寫。(預設值:False)

  • max_num_threads – 下載檔案時要使用的最大執行緒數

get_all_assemblies(file_format: str = '') list[tuple[str, str]]

檢索具有相關生物組裝的 PDB 條目列表。

請求的列表將被快取,以避免多次呼叫伺服器。

參數:

file_format (str) – 為了避免破壞性變更而保留的舊參數

傳回:

組裝

傳回類型:

列表

retrieve_assembly_file(pdb_code, assembly_num, pdir=None, file_format=None, overwrite=False)

擷取與 PDB 條目關聯的一個或多個組裝結構。

除非下面另有說明,否則參數在 retrieve_pdb_file 中說明。

參數:

assembly_num (str) – 要下載的組裝編號。

:rtype : str :return: 下載的組裝檔案的檔案名稱。

download_all_assemblies(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

擷取本地 PDB 副本中不存在的所有生物組裝。

參數:
  • listfile – 將所有組裝代碼寫入其中的檔案名稱

  • file_format – 下載條目的格式。可用的選項為 “mmCif” 或 “pdb”。預設為 “mmCif”。

  • max_num_threads – 下載組裝時要使用的最大執行緒數

download_entire_pdb(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

擷取本地 PDB 副本中不存在的所有 PDB 條目。

注意:預設下載格式已從 PDB 變更為 PDBx/mmCif。

參數:
  • listfile – 將所有 PDB 代碼寫入其中的檔案名稱

  • file_format

    檔案格式。可用的選項

    • 「mmCif」(預設,PDBx/mmCif 檔案),

    • 「pdb」(PDB 格式),

    • ”xml” (PMDML/XML 格式),

    • 「mmtf」(高度壓縮),

    • 「bundle」(大型結構的 PDB 格式封存)

  • max_num_threads – 下載 PDB 條目時要使用的最大執行緒數

download_obsolete_entries(listfile: str | None = None, file_format: str | None = None, max_num_threads: int | None = None)

擷取本機過時 PDB 副本中不存在的所有過時 PDB 條目。

注意:預設下載格式已從 PDB 變更為 PDBx/mmCif。

參數:
  • listfile – 將所有 PDB 代碼寫入其中的檔案名稱

  • file_format

    檔案格式。可用的選項

    • 「mmCif」(預設,PDBx/mmCif 檔案),

    • ”pdb” (PDB 格式),

    • ”xml” (PMDML/XML 格式)。

  • max_num_threads – 下載 PDB 條目時要使用的最大執行緒數

get_seqres_file(savefile='pdb_seqres.txt')

擷取並儲存一個 (大) 檔案,其中包含所有 PDB 條目的序列。