Bio.motifs.matrix 模組

支援各種形式的序列模體矩陣。

實作頻率(計數)矩陣、位置權重矩陣和位置特異性評分矩陣。

class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)

基底類別:dict

用於支援位置矩陣操作的基底類別。

__init__(alphabet, values)

初始化類別。

__str__()

傳回包含核苷酸和矩陣中字母計數的字串。

__getitem__(key)

傳回索引鍵的位置矩陣。

property consensus

傳回一致性序列。

property anticonsensus

傳回反一致性序列。

property degenerate_consensus

傳回退化的一致性序列。

calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)

傳回給定參數的一致性序列(作為字串)。

此函式主要遵循 EMBOSS cons 工具的慣例。

引數
  • substitution_matrix - 用於比較序列的評分矩陣。預設值為 None,在這種情況下,我們只計算每個字母的頻率。除了預設值之外,您可以使用 Bio.Align.substitution_matrices 中可用的替換矩陣。常見的選擇是蛋白質的 BLOSUM62(也稱為 EBLOSUM62),以及核苷酸的 NUC.4.4(也稱為 EDNAFULL)。注意:尚未實作此功能。

  • plurality - 達到一致性所需的正向匹配次數閾值,除以欄位中的總計數。如果 substitution_matrix 為 None,則此引數必須為 None,否則會忽略並引發 ValueError。如果 substitution_matrix 不為 None,則 plurality 的預設值為 0.5。

  • identity - 定義一致性值所需的相同數目,除以欄位中的總計數。如果相同數目小於 identity * 欄位中的總計數,則在一致性序列中使用未定義的字元(核苷酸的 'N' 和胺基酸序列的 'X')。如果 identity 為 1.0,則只有相同字母的欄位才會有助於一致性。預設值為零。

  • setcase - 正向匹配的閾值,除以欄位中的總計數,超過此值時一致性為大寫,低於此值時一致性為小寫。預設情況下,此值等於 0.5。

property gc_content

計算 GC 含量的比例。

reverse_complement()

計算反向互補。

class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)

基底類別:GenericPositionMatrix

用於支援位置矩陣頻率計算的類別。

normalize(pseudocounts=None)

藉由正規化計數矩陣來建立並傳回位置權重矩陣。

如果 pseudocounts 為 None(預設值),則不會將虛擬計數新增至計數。

如果 pseudocounts 為數字,則會在計算位置權重矩陣之前將其新增至計數。

或者,pseudocounts 可以是字典,其中每個鍵對應到與模體相關的字母。

class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)

基底類別:GenericPositionMatrix

用於支援位置矩陣權重計算的類別。

__init__(alphabet, counts)

初始化類別。

log_odds(background=None)

傳回位置特異性評分矩陣。

位置特異性評分矩陣 (PSSM) 包含從機率矩陣和背景機率計算的對數優勢分數。如果背景為 None,則假設為均勻背景分佈。

class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)

基底類別:GenericPositionMatrix

用於支援位置特異性評分矩陣計算的類別。

calculate(sequence)

傳回給定序列所有位置的 PWM 分數。

註解
  • 序列只能是 DNA 序列

  • 搜尋僅在單一鏈上執行

  • 如果序列和motif具有相同長度,則返回單一數值

  • 否則,結果會是一個一維的numpy陣列

search(sequence, threshold=0.0, both=True, chunksize=10**6)

尋找PWM分數高於給定閾值的匹配。

一個產生器函數,返回在給定序列中找到的、pwm分數高於閾值的匹配。

property max

此motif的最大可能分數。

返回為一致序列計算的分數。

property min

此motif的最小可能分數。

返回為反一致序列計算的分數。

property gc_content

計算GC比率。

mean(background=None)

返回motif分數的期望值。

std(background=None)

返回motif分數的標準差。

dist_pearson(other)

返回針對自身,基於皮爾遜相關性的給定motif相似度分數。

我們使用各自機率的皮爾遜相關性。

dist_pearson_at(other, offset)

返回在給定偏移量,基於皮爾遜相關性的相似度分數。

distribution(background=None, precision=10**3)

計算給定精度的分數分佈。