《中國人工智能大模型地圖研究報告》指出,截至 2023 年 5 月底,國產超 10 億參數的 AI 大模型已達 79 個,從全球分布來看,美中兩國大幅領先,超過全球總數的 80%。
隨著大模型發展成為 " 持久戰 ",底層算力比拼也將在很大程度上決定大國博弈的終章。
因此,在 ChatGPT 出現后的九個多月里,已有不少大模型依托超大規模國產化算力底座,打造一條 " 算力—數據—算法—應用 " 的全鏈條 AI 研發體系。
以網絡與計算技術見長的陳紅陽,目前正帶領之江實驗室圖計算研究中心投身到當前一輪的大模型浪潮中。
" 一是研發基于圖計算的預訓練大模型,二是進行國產硬件適配,打造圖智能計算系統。這就是我們現在常說的‘軟硬件協同’。"
陳紅陽是網絡信息背景,曾在西南交通大學、中科院計算所、寧波中科集成電路設計中心、日本東京大學、UCLA 大學,日本富士通研究所,參與過物聯網理論和算法研究、無線通信系統研發,和信息與通信(ICT)技術國際標準化工作。
2020 年 7 月,陳紅陽回國加入之江實驗室,他的研究重心也隨之變遷,轉向 " 智能計算 "(算力)。2022 年中,之江實驗室和華東科技大學成立了圖計算聯合研究中心,目標是打造軟硬件協同的圖計算的系統,由陳紅陽擔任該中心副主任。
據悉,目前研究中心已推出 " 朱雀圖預訓練大模型 ",以及高效圖計算平臺 " 之江朱雀平臺 "。該平臺能夠一站式賦能醫藥制造和生物育種等領域,并在今年與一家藥企簽署合作協議。
近日,雷峰網《醫健 AI 掘金志》推出《醫療大模型十人談》系列,探究國產 AI 大模型如何邁向生態建設,以及不同機構在轉化落地上的布局和探索。以下是和陳紅陽的對話內容,我們做了不改變原意的編輯與整理。
《醫健 AI 掘金志》:ChatGTP 加速了 " 計算智能時代 " 的到來。目前你帶領團隊所做的 " 之江朱雀 " 平臺,集齊了 GPT、圖計算、加速藥物發現 3 種技術能力,是否有過往經歷的背書?
陳紅陽:目前我的研究線分為兩塊,來到之江實驗室之前,我一直聚焦在網絡信息領域,當時我和團隊一起構建了大型 ICT(信息通信技術)系統,像物聯網和 5G 系統。
2007 年到 2011 年,我博士去往日本東京大學,參與無線傳感器網絡理論和算法研究。期間我去往美國 UCLA 大學擔任訪問學者,在 Ali. H. Sayed 教授領導的實驗室主要從事分布式信號處理研究。
而后進入日本富士通研究所工作過十年(2011-2020)。大概是在 2017,2018 年,我參與了一些大數據平臺的研發工作,特別是為運營商的數據進行挖掘和分析,從那時起,我慢慢從原來做的 " 連接 " 偏向了 " 計算 ",更確切是 " 智能計算 "。
同時期,之江實驗室在 2017 年成立,加上我本身是浙江人,有過幾次接觸,所以我 2020 年 7 月回國并正式入職。因為我有網絡、計算、數據分析的背景,最初我是在 " 智能網絡 " 研究中心,后來隨著之江實驗室主攻 " 智能計算 " 這一戰略方向,我便做起了這方面的項目。
但我是怎么做起了圖計算呢?
大數據時代,圖計算已經成為海量數據高效分析和挖掘的基礎性使能技術,是近年包括美國在內的各國在智能計算領域力爭的制高點。
為提升實驗室在圖計算領域的研究實力和戰略地位,2022 年 6 月,之江實驗室聯合華中科技大學于共同組建 " 圖計算聯合研究中心 ",預期實現圖計算從理論到系統、從原型到芯片、從專用到通用的逐步落地。
去年 ChatGPT 一躍成為全球創新的焦點,我認為自己需要順勢而為,發揮我在網絡和計算領域多年來的積累。
一是研發 " 基于圖計算的預訓練大模型 ",二是進行 " 國產硬件適配 ",打造 " 圖智能計算系統 "。這也是我們現在常說的 " 軟硬件協同 "。
目前大家所看到的之江朱雀平臺,已經接入了我們的 " 朱雀圖預訓練大模型 "、集成了很多傳統的圖深度學習方法及自研的圖學習算法、而且已經適配了華為的昇騰和鯤鵬芯片。因此在平臺上面,我們可以做很多科學計算問題,醫藥研發是其中很重要的一塊。
" 大規模高效圖計算平臺 " 僅僅只是我們團隊的一小步。從芯片、編程框架,到軟硬件平臺一體化設計,最后打造一臺全國產自主可控的圖計算機,才是我們圖計算中心的目標。
《醫健 AI 掘金志》:國內外企業更多是將圖計算技術研究消費行為、電信詐騙、金融貿易等,你們為何將這一技術用于生物制藥?
陳紅陽:確實,近年來圖計算技術已經擴展到了非常多的領域。2021 年 7 月,Alphafold2 掀起了一股計算制藥的浪潮。我也是那時候開始著手將圖計算技術應用于生物制藥領域。
從技術原理上說,藥物分子可以視為由原子和化學鍵構成的圖,比如它的原子可以看成一個 " 節點 ",化學鍵可以看作是 " 邊 ",因此圖計算技術能很好地應用于該領域,幫助預測化合物的性質、相互作用、與靶點之間的相互作用等。目前我們團隊開發的朱雀圖預訓練大模型,主要是用圖結構數據加速藥物發現。
為什么一定要重新開發這樣一款垂直大模型,根本原因是 ChatGPT 直接應用到生物制藥領域,還存在很多不足:
一是無法把控可信性、二是在特定領域表現差、三是成本高昂。
如 Bert 和 ChatGPT 等,已在自然語言領域展現出了驚人的效果,但應用到生物制藥領域則無法應對生物領域的非歐結構數據、圖神經網絡中的過平滑問題、數據標簽稀缺、如何融入領域知識,以及如何解決大數據大模型的工程問題等。
因此,我們必須要打造一款我們自己的 " 生物 GPT"。而且不能一味地堆數據量,還要將藥學的領域知識嵌入大模型中。
從這點講,我們的朱雀圖預訓練大模型,是 " 知識圖譜 + 圖計算 + 大模型 " 三者互補而來,能夠很大程度上規避大模型 " 胡言亂語 " 的幻覺問題。
那么,在大量分子數據上完成自監督預訓練任務后,未來只需要在將得到的編碼器在下游任務上微調。如 DDI(藥物間的相互作用)、DTI(藥物與蛋白質之間的相互作用)和 MPP(藥物性質預測) 等,只需要做出很小的調整。整個流程沿襲了大模型的思路。
最終所有的功能都會集成在之江朱雀平臺上,我們會開放模型接口、算法、數據、算力,提供一個一站式的平臺。
《醫健 AI 掘金志》:所以醫藥研發只是朱雀圖計算平臺的其中一個應用,你們在研發過程中遇到哪些技術和工程挑戰?
陳紅陽:國內將圖計算大模型應用到醫藥領域的團隊并不多,大部分還是集中在金融、電商,以及社交網等領域。我們團隊里最初沒有藥物化學背景的人,全靠自己去摸索,過程中寫了一本白皮書 --《之江實驗室智能計算 " 數字反應堆 " 白皮書——計算制藥篇》。當然我們的理解沒有那么深,目的是從計算的角度理解制藥的東西,助力 AI4SCI。
朱雀圖計算平臺的研發過程中,主要有 3 個關鍵技術難題:
1) 建立知識融合的高效自適應圖學習平臺,研發高效圖神經網絡和知識圖譜算法,解決科學圖計算和稀疏學習的知識融合問題;
2) 針對多學科科學圖學習中的算力與算子適配不足,及國產芯片集群的軟硬件不兼容問題,研發適配的智能圖算子,提高典型算法算子性能能 1 倍以上。
3) 針對多學科科學圖學習中的表示困難,圖架構自動學習能力不足,及圖生成缺乏領域知識等問題,利用多學科的預訓練模型和領域知識,研制圖架構搜索、圖生成學習、圖表示學習及知識圖譜技術和預測算法軟件。
此外,數據是一個非技術的難題。
我們自己有大型細胞測序儀,也和良渚實驗室的測序團隊合作,他們產生的數據會到我們這邊來。而且作為國家戰略科技力量,最終平臺和數據都是開放開源的。
現在面臨的較大問題是靶標發現和醫院數據,能否通過分布式聯邦學習的方式共同使用。這塊我們拿到的只是少量的開源數據。
《醫健 AI 掘金志》:國內外大模型發展路徑有何不同?
陳紅陽:在中美大模型的發展過程中,美國更注重技術的研發與創新,并在硬件和深度學習框架等方面取得了重要進展。
例如 NVIDIA、Google 推出的適用于深度學習的專用芯片 GPU、TPU,還有包括 TensorFlow、PyTorch 在內的開源框架,都處于世界領先地位。去年英偉達還推出了生科領域的大語言模型的框架 BioNemo。
相比之下,中國更聚焦在人工智能的應用層面,探索如何實現其商業變現。所以未來會有三大生態層:基礎模型層、中間層和應用層。
最底層當然機會巨大,天花板會非常高,但風險也是最大的,因為平臺公司一定是少數,好比很多操作系統最后只剩下 iOS 和安卓。但目前芯片緊缺、國產框架的生態圈不足、交叉學科人員的匱乏等,導致智能計算底層關鍵技術還是缺失的。
如果是做應用層,風險就沒有那么大,而且每一個生產力領域都可能成長出垂直領域的領先公司,但規??赡軣o法與平臺公司相比。
但國外開源大模型多于國內,造成一些公司拿著國外的開源代碼進行 " 套殼 " 和微調,并不利于生態建設。
《醫健 AI 掘金志》:現如今有這么多機構做大模型,會不會陷入同質化內卷?
陳紅陽:確實,越來越多的機構開始涉足大模型的研發和應用,截至今年 5 月底,中國研發的大模型數量排名全球第二,僅次于美國,國內超 10 億參數的大模型至少 79 個。這種情況下可能會導致同質化內卷。
自然語言處理、計算機視覺、推薦系統,都是當下大模型的熱門領域,當研究方向都集中在這些領域,再加上相似的訓練數據集和算法選擇,導致研發的大模型缺乏差異性和創新性。
而且這也消耗了大量社會資源。整體上國內大模型尚處于追趕階段,面臨一些挑戰,如核心算法不成熟、訓練數據質量低、實際落地效果不理想、生態圈不健全等問題。
當然,也有學者開始關注新的研究方向,比如優化訓練算法與架構,探索大模型的可解釋性等。尤其是可解釋性對于自動駕駛、智能家居、金融風控、生命科學等應用場景來說至關重要。
《醫健 AI 掘金志》:在大模型研究中,以企業為主導的方式,對比以實驗室為主導的方式,會更有優勢嗎?
陳紅陽:正如 " 閉源摧毀 UNIX,開源成就 Linux。"
實驗室為主導,使得開發人員可以騰出時間來解決尚未真正意義上的問題與解決,實現技術社區內自然的分工協作。現在市面上符合中國用戶習慣的高質量大模型是十分欠缺的,這也是很多大型實驗室決定開源的原因。
如果是純粹企業主導,大模型更多走向閉源。其數據一般是私有的,更注重落地。但他們有幾億的或者幾十億的經費,直接租用一年的算力資源,可以一年從頭到尾不間斷訓練。
因為大模型的訓練本質上就是一個超大的訓練任務,比如在 1000 張(或更多)GPU 卡上跑兩、三個月。測算了一下,購買 1000 張 H800 按市場價,就要投入 3 億資金。即便是租用算力也容易以億元為計。通常實驗室支撐不了如此大的成本。
《醫健 AI 掘金志》:大模型 " 智能涌現 " 令人興奮,是否導致存在一些發展誤區?或者說大模型存在一定泡沫?
陳紅陽:過于追求參數規模,是大模型發展中存在的一大誤區。
僅僅增加模型的規模并不一定能夠帶來更好的性能,模型性能和其它許多因素相關,比如網絡結構、數據質量等。一味地堆疊參數量可能會帶來一些問題:
1,過擬合風險。導致模型泛化能力下降,雖然在訓練集上表現良好,但在下游任務上表現不佳。
2,缺乏解釋性。大量參數使得模型的決策過程難以解釋,也就是我們常說的 " 黑盒問題 ",這使得大模型缺乏可解釋性和可信性。
3,資源不足。增加參數量可能會增加存儲、傳輸和計算資源的負擔。因此,在選擇模型規模時,需要權衡具體任務要求、可用資源和訓練數據大小等因素。
但國內大模型還應該繼續向前發展,太早的剎車反倒有可能形成泡沫。
《醫健 AI 掘金志》:下半年,生物垂類大模型的技術演變方向是怎樣的?
陳紅陽:一定程度上,未來的大模型應用趨勢一定是 " 大模型 + 知識 + 行業應用 " 的模式。大模型將成為未來 AI 產品的操作系統,將會催生全新的 " 模型即服務 " 產業。
目前的大模型能夠為用戶提供基礎的知識服務,它就像一個不那么準確的知識庫或搜索引擎,只能提供一些很基礎的服務,而且無法保證準確、可控和可解釋,這將極大限制它在實際場景的應用。
因為用戶無法接受胡說八道、不準確、不負責任的服務。
所以,必須加上知識,讓大模型可控、可追溯、可解釋,并且能夠更精準地解決更專業的問題。
最后,大模型結合具體的應用才能讓智能算法和平臺落地,只有滿足用戶各種各樣的個性化需求才能產生價值。