Bio.motifs.matrix 模組

支援各種形式的序列模體矩陣。

實作頻率（計數）矩陣、位置權重矩陣和位置特異性評分矩陣。

class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)

基底類別：dict

用於支援位置矩陣操作的基底類別。

__init__(alphabet, values): 初始化類別。

__str__(): 傳回包含核苷酸和矩陣中字母計數的字串。

__getitem__(key): 傳回索引鍵的位置矩陣。

property consensus: 傳回一致性序列。

property anticonsensus: 傳回反一致性序列。

property degenerate_consensus: 傳回退化的一致性序列。

calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)

傳回給定參數的一致性序列（作為字串）。

此函式主要遵循 EMBOSS cons 工具的慣例。

引數

substitution_matrix - 用於比較序列的評分矩陣。預設值為 None，在這種情況下，我們只計算每個字母的頻率。除了預設值之外，您可以使用 Bio.Align.substitution_matrices 中可用的替換矩陣。常見的選擇是蛋白質的 BLOSUM62（也稱為 EBLOSUM62），以及核苷酸的 NUC.4.4（也稱為 EDNAFULL）。注意：尚未實作此功能。
plurality - 達到一致性所需的正向匹配次數閾值，除以欄位中的總計數。如果 substitution_matrix 為 None，則此引數必須為 None，否則會忽略並引發 ValueError。如果 substitution_matrix 不為 None，則 plurality 的預設值為 0.5。
identity - 定義一致性值所需的相同數目，除以欄位中的總計數。如果相同數目小於 identity * 欄位中的總計數，則在一致性序列中使用未定義的字元（核苷酸的 'N' 和胺基酸序列的 'X'）。如果 identity 為 1.0，則只有相同字母的欄位才會有助於一致性。預設值為零。
setcase - 正向匹配的閾值，除以欄位中的總計數，超過此值時一致性為大寫，低於此值時一致性為小寫。預設情況下，此值等於 0.5。

property gc_content: 計算 GC 含量的比例。

reverse_complement(): 計算反向互補。

class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)

基底類別：GenericPositionMatrix

用於支援位置矩陣頻率計算的類別。

normalize(pseudocounts=None)

藉由正規化計數矩陣來建立並傳回位置權重矩陣。

如果 pseudocounts 為 None（預設值），則不會將虛擬計數新增至計數。

如果 pseudocounts 為數字，則會在計算位置權重矩陣之前將其新增至計數。

或者，pseudocounts 可以是字典，其中每個鍵對應到與模體相關的字母。

class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)

基底類別：GenericPositionMatrix

用於支援位置矩陣權重計算的類別。

__init__(alphabet, counts): 初始化類別。

log_odds(background=None)

傳回位置特異性評分矩陣。

位置特異性評分矩陣 (PSSM) 包含從機率矩陣和背景機率計算的對數優勢分數。如果背景為 None，則假設為均勻背景分佈。

class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)

基底類別：GenericPositionMatrix

用於支援位置特異性評分矩陣計算的類別。

calculate(sequence)

傳回給定序列所有位置的 PWM 分數。

註解

序列只能是 DNA 序列
搜尋僅在單一鏈上執行
如果序列和motif具有相同長度，則返回單一數值
否則，結果會是一個一維的numpy陣列

search(sequence, threshold=0.0, both=True, chunksize=10**6)

尋找PWM分數高於給定閾值的匹配。

一個產生器函數，返回在給定序列中找到的、pwm分數高於閾值的匹配。

property max

此motif的最大可能分數。

返回為一致序列計算的分數。

property min

此motif的最小可能分數。

返回為反一致序列計算的分數。

property gc_content: 計算GC比率。

mean(background=None): 返回motif分數的期望值。

std(background=None): 返回motif分數的標準差。

dist_pearson(other)

返回針對自身，基於皮爾遜相關性的給定motif相似度分數。

我們使用各自機率的皮爾遜相關性。

dist_pearson_at(other, offset): 返回在給定偏移量，基於皮爾遜相關性的相似度分數。

distribution(background=None, precision=10**3): 計算給定精度的分數分佈。