2024年10月14日, 深圳灣實驗室腫瘤研究所孫坤團隊在期刊《Cell Reports Methods》上發表了題為“Cell-free DNA end characteristics enable accurate and sensitive cancer diagnosis”的研究論文。在這項研究中,團隊在末端選擇后,開發了3個cfDNA片段組學指標。通過結合機器學習,團隊進一步構建了高性能診斷模型,在特異性為95%的情況下,曲線下總面積為0.95,靈敏度為85.1%。這項研究探討了cfDNA片段組學的最終特征及其在構建準確和靈敏的癌癥診斷模型方面的優點。

https://www.cell.com/cell-reports-methods/fulltext/S2667-2375(24)00260-1
關于血漿循環游離DNA
01
血漿循環游離DNA(cfDNA)是一種經過深入研究的分析物,用于無創產前檢測、癌癥診斷和治療監測(即“癌癥液體活檢”)。研究人員發現,cfDNA分子是通過與其起源組織高度相關的非隨機程序產生的。在最近的一項研究中,Cristiano等人表明,通過將cfDNA片段組學特征與機器學習方法相結合,可以獲得高性能的診斷模型。
在以前的研究中,團隊和其他人證明,cfDNA的片段化與核小體結構密切相關。此外,團隊發現,癌癥患者的總體cfDNA終結譜與對照受試者顯著不同,并進一步開發了基于終結的指標E指數,用于癌癥診斷。在這項研究中,團隊研究了cfDNA相對于核小體的特征(來源于造血細胞或直接從cfDNA覆蓋模式推斷),以進一步探索cfDNA片段組學的生物學特性及其翻譯價值。

圖形摘要
末端選擇的cfDNA片段組學特征
02
末端選擇后,cfDNA的總體大小分布與未進行末端選擇后相似。例如,在166bp處出現峰值,在143bp以下有10bp的周期性,被保存下來;然而,不大于150bp的片段的比例增加,具有CCCA末端基序的讀數比例也顯著增加。
腫瘤來源的cfDNA分子確實富含末端選擇。僅基于5'末端的末端選擇或使用補充核小體軌道,顯示出一致的結果。

末端選擇的cfDNA片段組學的改變
通過機器學習提高診斷性能
03
對于每個樣本,團隊計算了每個窗口的N指數值,然后采用梯度提升決策樹(GBDT)算法,利用N指數值來區分癌癥患者和對照組。團隊將這種方法命名為EXCEL(末端選擇檢查cfDNA),它生成了帶有分數的模型,以對樣本是否癌變進行分類。每5Mb窗口N指數值的EXCEL模型顯示,總體AUC值為0.95,并且顯著高于全基因組N指數指標。所有癌癥和分期的AUC,至少為0.92。此外,EXCEL在181名癌癥患者中,檢測到154名患者。敏感性為85.1%,特異性為95%,高于同一數據集上的DELFI算法(79.8%);同樣,對可切除(I-III 期)腫瘤患者的敏感性為84.8%,也高于DELFI(79.2%)。在區分癌癥樣本與對照組時,總體AUC值分別為0.88和0.81,這明顯高于沒有使用機器學習的全基因組指標。

使用EXCEL進行癌癥診斷
總結
04
1. N指數值的意義:N指數值反映了腫瘤DNA分數的升高,表明末端選擇可以富集腫瘤來源的cfDNA。
2. 生物標志物的潛力:N指數、ΔS150值和ΔMCCCA指標,是泛癌診斷的有前途的生物標志物。
3. 末端選擇的重要性:末端選擇可以富集腫瘤來源的cfDNA分子,恢復大量讀數用于下游分析。
4. 診斷性能的提升:結合機器學習方法,這些指標可以顯著提高泛癌患者的診斷性能。
5. 未來應用的展望:這些指標可以作為構建大型多生物標志物、高性能診斷模型的寶貴元素。