棉花產量與纖維品質如何受到DNA甲基化調控?在AI的幫助下,中國棉花育種專家成功破譯這一“密碼本”,并從中找出有望改良棉花品種的關鍵基因位點。
近日,由浙江大學棉花精準育種團隊、中國農科院生物技術所和湖畔實驗室(阿里巴巴達摩院)智慧育種團隊組成的聯合科研團隊,綜合運用遺傳學、生物大數據和AI技術,構建了涵蓋207個品種的棉花全基因組DNA甲基化圖譜,鑒定2.87億個單甲基化多態性(SMP)位點,規模為目前所有作物之最。聯合團隊從中發現43個潛在參與纖維發育的eQTM基因,為棉花育種提供重要的候選基因列表。相關論文發表在國際頂級期刊《細胞研究》(Cell Research)上。
棉花是全球最大的天然紡織纖維來源,需要通過不斷聚合優異的基因組遺傳位點,進行品種改良。在AI、大數據等技術加持下,農業正在步入“智慧育種”時代,通過綜合作物基因型數據、表型數據和環境數據,預測作物性狀,精準篩選出優異基因。
此次,聯合科研團隊聚焦DNA甲基化對作物的影響。DNA甲基化可以在不改變棉花DNA序列的情況下,影響棉花產量、纖維品質等農藝性狀,并通過自然進化和人工選擇傳遞。團隊收集了207個品種的棉花全基因組甲基化測序數據、基因組測序數據、轉錄組測序數據,再結合農藝性狀的表型數據,進行關聯分析,首次構建起群體尺度的棉花全基因組DNA甲基化圖譜,涵蓋2.87億個單甲基化多態性(SMP)位點。其中,僅甲基化測序數據就達到17TB。
湖畔實驗室融合AI、并行計算等技術開發了一套新型算法,加速海量遺傳數據的分析處理。湖畔實驗室智慧育種團隊負責人顧斐表示:“相比起傳統方法,AI加成的分析計算速度提升近100倍,有助于開展億級序列對比、群體變異分析和多組學關聯分析,在數百個遺傳變異、數萬個基因以及數億個甲基化位點之間建立起復雜的映射關系。”
聯合科研團隊進而首次繪制出與棉花纖維發育相關、獨立于遺傳因素的表觀調控網絡,揭示了43個潛在參與纖維發育的eQTM基因。其中一個位點已通過基因編輯實驗,證實其調控棉花纖維長度的作用。此外,研究人員研發了深度學習模型DeepFDML,基于DNA甲基化位點附近的序列,預測影響基因表達的甲基化位點,未來有望發現更多具有育種價值的信息。

圖說:群體單堿基DNA甲基化多態性的精準鑒定、調控網絡解析與預測模型構建
浙江大學棉花精準育種團隊方磊教授表示:“這項研究成果證明了DNA甲基化數據可作為育種資源,為棉花品種改良提供新的思路。依托生命科學+AI,育種家們將持續挖掘關鍵基因、預測農藝性狀,加速培育‘超級’作物。”
據悉,湖畔實驗室(數據科學與應用浙江省實驗室)成立于2020年7月,依托阿里巴巴達摩院建設,聚焦數據科學領域的“數據智能”和“新型計算”兩大方向。在智慧育種領域,湖畔實驗室牽頭研發全流程智慧育種平臺,為育種家們提供包含育種數據管理和分析、計算加速、AI預測的“中央廚房”,大幅縮短培育新品種的周期。