Bio.motifs.matrix 模組
支援各種形式的序列模體矩陣。
實作頻率(計數)矩陣、位置權重矩陣和位置特異性評分矩陣。
- class Bio.motifs.matrix.GenericPositionMatrix(alphabet, values)
基底類別:
dict
用於支援位置矩陣操作的基底類別。
- __init__(alphabet, values)
初始化類別。
- __str__()
傳回包含核苷酸和矩陣中字母計數的字串。
- __getitem__(key)
傳回索引鍵的位置矩陣。
- property consensus
傳回一致性序列。
- property anticonsensus
傳回反一致性序列。
- property degenerate_consensus
傳回退化的一致性序列。
- calculate_consensus(substitution_matrix=None, plurality=None, identity=0, setcase=None)
傳回給定參數的一致性序列(作為字串)。
此函式主要遵循 EMBOSS cons 工具的慣例。
- 引數
substitution_matrix - 用於比較序列的評分矩陣。預設值為 None,在這種情況下,我們只計算每個字母的頻率。除了預設值之外,您可以使用 Bio.Align.substitution_matrices 中可用的替換矩陣。常見的選擇是蛋白質的 BLOSUM62(也稱為 EBLOSUM62),以及核苷酸的 NUC.4.4(也稱為 EDNAFULL)。注意:尚未實作此功能。
plurality - 達到一致性所需的正向匹配次數閾值,除以欄位中的總計數。如果 substitution_matrix 為 None,則此引數必須為 None,否則會忽略並引發 ValueError。如果 substitution_matrix 不為 None,則 plurality 的預設值為 0.5。
identity - 定義一致性值所需的相同數目,除以欄位中的總計數。如果相同數目小於 identity * 欄位中的總計數,則在一致性序列中使用未定義的字元(核苷酸的 'N' 和胺基酸序列的 'X')。如果 identity 為 1.0,則只有相同字母的欄位才會有助於一致性。預設值為零。
setcase - 正向匹配的閾值,除以欄位中的總計數,超過此值時一致性為大寫,低於此值時一致性為小寫。預設情況下,此值等於 0.5。
- property gc_content
計算 GC 含量的比例。
- reverse_complement()
計算反向互補。
- class Bio.motifs.matrix.FrequencyPositionMatrix(alphabet, values)
-
用於支援位置矩陣頻率計算的類別。
- normalize(pseudocounts=None)
藉由正規化計數矩陣來建立並傳回位置權重矩陣。
如果 pseudocounts 為 None(預設值),則不會將虛擬計數新增至計數。
如果 pseudocounts 為數字,則會在計算位置權重矩陣之前將其新增至計數。
或者,pseudocounts 可以是字典,其中每個鍵對應到與模體相關的字母。
- class Bio.motifs.matrix.PositionWeightMatrix(alphabet, counts)
-
用於支援位置矩陣權重計算的類別。
- __init__(alphabet, counts)
初始化類別。
- log_odds(background=None)
傳回位置特異性評分矩陣。
位置特異性評分矩陣 (PSSM) 包含從機率矩陣和背景機率計算的對數優勢分數。如果背景為 None,則假設為均勻背景分佈。
- class Bio.motifs.matrix.PositionSpecificScoringMatrix(alphabet, values)
-
用於支援位置特異性評分矩陣計算的類別。
- calculate(sequence)
傳回給定序列所有位置的 PWM 分數。
- 註解
序列只能是 DNA 序列
搜尋僅在單一鏈上執行
如果序列和motif具有相同長度,則返回單一數值
否則,結果會是一個一維的numpy陣列
- search(sequence, threshold=0.0, both=True, chunksize=10**6)
尋找PWM分數高於給定閾值的匹配。
一個產生器函數,返回在給定序列中找到的、pwm分數高於閾值的匹配。
- property max
此motif的最大可能分數。
返回為一致序列計算的分數。
- property min
此motif的最小可能分數。
返回為反一致序列計算的分數。
- property gc_content
計算GC比率。
- mean(background=None)
返回motif分數的期望值。
- std(background=None)
返回motif分數的標準差。
- dist_pearson(other)
返回針對自身,基於皮爾遜相關性的給定motif相似度分數。
我們使用各自機率的皮爾遜相關性。
- dist_pearson_at(other, offset)
返回在給定偏移量,基於皮爾遜相關性的相似度分數。
- distribution(background=None, precision=10**3)
計算給定精度的分數分佈。