《中國人工智能大模型地圖研究報告》指出,截至 2023 年 5 月底,國產(chǎn)超 10 億參數(shù)的 AI 大模型已達 79 個,從全球分布來看,美中兩國大幅領先,超過全球總數(shù)的 80%。
隨著大模型發(fā)展成為 " 持久戰(zhàn) ",底層算力比拼也將在很大程度上決定大國博弈的終章。
因此,在 ChatGPT 出現(xiàn)后的九個多月里,已有不少大模型依托超大規(guī)模國產(chǎn)化算力底座,打造一條 " 算力—數(shù)據(jù)—算法—應用 " 的全鏈條 AI 研發(fā)體系。
以網(wǎng)絡與計算技術(shù)見長的陳紅陽,目前正帶領之江實驗室圖計算研究中心投身到當前一輪的大模型浪潮中。
" 一是研發(fā)基于圖計算的預訓練大模型,二是進行國產(chǎn)硬件適配,打造圖智能計算系統(tǒng)。這就是我們現(xiàn)在常說的‘軟硬件協(xié)同’。"
陳紅陽是網(wǎng)絡信息背景,曾在西南交通大學、中科院計算所、寧波中科集成電路設計中心、日本東京大學、UCLA 大學,日本富士通研究所,參與過物聯(lián)網(wǎng)理論和算法研究、無線通信系統(tǒng)研發(fā),和信息與通信(ICT)技術(shù)國際標準化工作。
2020 年 7 月,陳紅陽回國加入之江實驗室,他的研究重心也隨之變遷,轉(zhuǎn)向 " 智能計算 "(算力)。2022 年中,之江實驗室和華東科技大學成立了圖計算聯(lián)合研究中心,目標是打造軟硬件協(xié)同的圖計算的系統(tǒng),由陳紅陽擔任該中心副主任。
據(jù)悉,目前研究中心已推出 " 朱雀圖預訓練大模型 ",以及高效圖計算平臺 " 之江朱雀平臺 "。該平臺能夠一站式賦能醫(yī)藥制造和生物育種等領域,并在今年與一家藥企簽署合作協(xié)議。
近日,雷峰網(wǎng)《醫(yī)健 AI 掘金志》推出《醫(yī)療大模型十人談》系列,探究國產(chǎn) AI 大模型如何邁向生態(tài)建設,以及不同機構(gòu)在轉(zhuǎn)化落地上的布局和探索。以下是和陳紅陽的對話內(nèi)容,我們做了不改變原意的編輯與整理。
《醫(yī)健 AI 掘金志》:ChatGTP 加速了 " 計算智能時代 " 的到來。目前你帶領團隊所做的 " 之江朱雀 " 平臺,集齊了 GPT、圖計算、加速藥物發(fā)現(xiàn) 3 種技術(shù)能力,是否有過往經(jīng)歷的背書?
陳紅陽:目前我的研究線分為兩塊,來到之江實驗室之前,我一直聚焦在網(wǎng)絡信息領域,當時我和團隊一起構(gòu)建了大型 ICT(信息通信技術(shù))系統(tǒng),像物聯(lián)網(wǎng)和 5G 系統(tǒng)。
2007 年到 2011 年,我博士去往日本東京大學,參與無線傳感器網(wǎng)絡理論和算法研究。期間我去往美國 UCLA 大學擔任訪問學者,在 Ali. H. Sayed 教授領導的實驗室主要從事分布式信號處理研究。
而后進入日本富士通研究所工作過十年(2011-2020)。大概是在 2017,2018 年,我參與了一些大數(shù)據(jù)平臺的研發(fā)工作,特別是為運營商的數(shù)據(jù)進行挖掘和分析,從那時起,我慢慢從原來做的 " 連接 " 偏向了 " 計算 ",更確切是 " 智能計算 "。
同時期,之江實驗室在 2017 年成立,加上我本身是浙江人,有過幾次接觸,所以我 2020 年 7 月回國并正式入職。因為我有網(wǎng)絡、計算、數(shù)據(jù)分析的背景,最初我是在 " 智能網(wǎng)絡 " 研究中心,后來隨著之江實驗室主攻 " 智能計算 " 這一戰(zhàn)略方向,我便做起了這方面的項目。
但我是怎么做起了圖計算呢?
大數(shù)據(jù)時代,圖計算已經(jīng)成為海量數(shù)據(jù)高效分析和挖掘的基礎性使能技術(shù),是近年包括美國在內(nèi)的各國在智能計算領域力爭的制高點。
為提升實驗室在圖計算領域的研究實力和戰(zhàn)略地位,2022 年 6 月,之江實驗室聯(lián)合華中科技大學于共同組建 " 圖計算聯(lián)合研究中心 ",預期實現(xiàn)圖計算從理論到系統(tǒng)、從原型到芯片、從專用到通用的逐步落地。
去年 ChatGPT 一躍成為全球創(chuàng)新的焦點,我認為自己需要順勢而為,發(fā)揮我在網(wǎng)絡和計算領域多年來的積累。
一是研發(fā) " 基于圖計算的預訓練大模型 ",二是進行 " 國產(chǎn)硬件適配 ",打造 " 圖智能計算系統(tǒng) "。這也是我們現(xiàn)在常說的 " 軟硬件協(xié)同 "。
目前大家所看到的之江朱雀平臺,已經(jīng)接入了我們的 " 朱雀圖預訓練大模型 "、集成了很多傳統(tǒng)的圖深度學習方法及自研的圖學習算法、而且已經(jīng)適配了華為的昇騰和鯤鵬芯片。因此在平臺上面,我們可以做很多科學計算問題,醫(yī)藥研發(fā)是其中很重要的一塊。
" 大規(guī)模高效圖計算平臺 " 僅僅只是我們團隊的一小步。從芯片、編程框架,到軟硬件平臺一體化設計,最后打造一臺全國產(chǎn)自主可控的圖計算機,才是我們圖計算中心的目標。
《醫(yī)健 AI 掘金志》:國內(nèi)外企業(yè)更多是將圖計算技術(shù)研究消費行為、電信詐騙、金融貿(mào)易等,你們?yōu)楹螌⑦@一技術(shù)用于生物制藥?
陳紅陽:確實,近年來圖計算技術(shù)已經(jīng)擴展到了非常多的領域。2021 年 7 月,Alphafold2 掀起了一股計算制藥的浪潮。我也是那時候開始著手將圖計算技術(shù)應用于生物制藥領域。
從技術(shù)原理上說,藥物分子可以視為由原子和化學鍵構(gòu)成的圖,比如它的原子可以看成一個 " 節(jié)點 ",化學鍵可以看作是 " 邊 ",因此圖計算技術(shù)能很好地應用于該領域,幫助預測化合物的性質(zhì)、相互作用、與靶點之間的相互作用等。目前我們團隊開發(fā)的朱雀圖預訓練大模型,主要是用圖結(jié)構(gòu)數(shù)據(jù)加速藥物發(fā)現(xiàn)。
為什么一定要重新開發(fā)這樣一款垂直大模型,根本原因是 ChatGPT 直接應用到生物制藥領域,還存在很多不足:
一是無法把控可信性、二是在特定領域表現(xiàn)差、三是成本高昂。
如 Bert 和 ChatGPT 等,已在自然語言領域展現(xiàn)出了驚人的效果,但應用到生物制藥領域則無法應對生物領域的非歐結(jié)構(gòu)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡中的過平滑問題、數(shù)據(jù)標簽稀缺、如何融入領域知識,以及如何解決大數(shù)據(jù)大模型的工程問題等。
因此,我們必須要打造一款我們自己的 " 生物 GPT"。而且不能一味地堆數(shù)據(jù)量,還要將藥學的領域知識嵌入大模型中。
從這點講,我們的朱雀圖預訓練大模型,是 " 知識圖譜 + 圖計算 + 大模型 " 三者互補而來,能夠很大程度上規(guī)避大模型 " 胡言亂語 " 的幻覺問題。
那么,在大量分子數(shù)據(jù)上完成自監(jiān)督預訓練任務后,未來只需要在將得到的編碼器在下游任務上微調(diào)。如 DDI(藥物間的相互作用)、DTI(藥物與蛋白質(zhì)之間的相互作用)和 MPP(藥物性質(zhì)預測) 等,只需要做出很小的調(diào)整。整個流程沿襲了大模型的思路。
最終所有的功能都會集成在之江朱雀平臺上,我們會開放模型接口、算法、數(shù)據(jù)、算力,提供一個一站式的平臺。
《醫(yī)健 AI 掘金志》:所以醫(yī)藥研發(fā)只是朱雀圖計算平臺的其中一個應用,你們在研發(fā)過程中遇到哪些技術(shù)和工程挑戰(zhàn)?
陳紅陽:國內(nèi)將圖計算大模型應用到醫(yī)藥領域的團隊并不多,大部分還是集中在金融、電商,以及社交網(wǎng)等領域。我們團隊里最初沒有藥物化學背景的人,全靠自己去摸索,過程中寫了一本白皮書 --《之江實驗室智能計算 " 數(shù)字反應堆 " 白皮書——計算制藥篇》。當然我們的理解沒有那么深,目的是從計算的角度理解制藥的東西,助力 AI4SCI。
朱雀圖計算平臺的研發(fā)過程中,主要有 3 個關鍵技術(shù)難題:
1) 建立知識融合的高效自適應圖學習平臺,研發(fā)高效圖神經(jīng)網(wǎng)絡和知識圖譜算法,解決科學圖計算和稀疏學習的知識融合問題;
2) 針對多學科科學圖學習中的算力與算子適配不足,及國產(chǎn)芯片集群的軟硬件不兼容問題,研發(fā)適配的智能圖算子,提高典型算法算子性能能 1 倍以上。
3) 針對多學科科學圖學習中的表示困難,圖架構(gòu)自動學習能力不足,及圖生成缺乏領域知識等問題,利用多學科的預訓練模型和領域知識,研制圖架構(gòu)搜索、圖生成學習、圖表示學習及知識圖譜技術(shù)和預測算法軟件。
此外,數(shù)據(jù)是一個非技術(shù)的難題。
我們自己有大型細胞測序儀,也和良渚實驗室的測序團隊合作,他們產(chǎn)生的數(shù)據(jù)會到我們這邊來。而且作為國家戰(zhàn)略科技力量,最終平臺和數(shù)據(jù)都是開放開源的。
現(xiàn)在面臨的較大問題是靶標發(fā)現(xiàn)和醫(yī)院數(shù)據(jù),能否通過分布式聯(lián)邦學習的方式共同使用。這塊我們拿到的只是少量的開源數(shù)據(jù)。
《醫(yī)健 AI 掘金志》:國內(nèi)外大模型發(fā)展路徑有何不同?
陳紅陽:在中美大模型的發(fā)展過程中,美國更注重技術(shù)的研發(fā)與創(chuàng)新,并在硬件和深度學習框架等方面取得了重要進展。
例如 NVIDIA、Google 推出的適用于深度學習的專用芯片 GPU、TPU,還有包括 TensorFlow、PyTorch 在內(nèi)的開源框架,都處于世界領先地位。去年英偉達還推出了生科領域的大語言模型的框架 BioNemo。
相比之下,中國更聚焦在人工智能的應用層面,探索如何實現(xiàn)其商業(yè)變現(xiàn)。所以未來會有三大生態(tài)層:基礎模型層、中間層和應用層。
最底層當然機會巨大,天花板會非常高,但風險也是最大的,因為平臺公司一定是少數(shù),好比很多操作系統(tǒng)最后只剩下 iOS 和安卓。但目前芯片緊缺、國產(chǎn)框架的生態(tài)圈不足、交叉學科人員的匱乏等,導致智能計算底層關鍵技術(shù)還是缺失的。
如果是做應用層,風險就沒有那么大,而且每一個生產(chǎn)力領域都可能成長出垂直領域的領先公司,但規(guī)模可能無法與平臺公司相比。
但國外開源大模型多于國內(nèi),造成一些公司拿著國外的開源代碼進行 " 套殼 " 和微調(diào),并不利于生態(tài)建設。
《醫(yī)健 AI 掘金志》:現(xiàn)如今有這么多機構(gòu)做大模型,會不會陷入同質(zhì)化內(nèi)卷?
陳紅陽:確實,越來越多的機構(gòu)開始涉足大模型的研發(fā)和應用,截至今年 5 月底,中國研發(fā)的大模型數(shù)量排名全球第二,僅次于美國,國內(nèi)超 10 億參數(shù)的大模型至少 79 個。這種情況下可能會導致同質(zhì)化內(nèi)卷。
自然語言處理、計算機視覺、推薦系統(tǒng),都是當下大模型的熱門領域,當研究方向都集中在這些領域,再加上相似的訓練數(shù)據(jù)集和算法選擇,導致研發(fā)的大模型缺乏差異性和創(chuàng)新性。
而且這也消耗了大量社會資源。整體上國內(nèi)大模型尚處于追趕階段,面臨一些挑戰(zhàn),如核心算法不成熟、訓練數(shù)據(jù)質(zhì)量低、實際落地效果不理想、生態(tài)圈不健全等問題。
當然,也有學者開始關注新的研究方向,比如優(yōu)化訓練算法與架構(gòu),探索大模型的可解釋性等。尤其是可解釋性對于自動駕駛、智能家居、金融風控、生命科學等應用場景來說至關重要。
《醫(yī)健 AI 掘金志》:在大模型研究中,以企業(yè)為主導的方式,對比以實驗室為主導的方式,會更有優(yōu)勢嗎?
陳紅陽:正如 " 閉源摧毀 UNIX,開源成就 Linux。"
實驗室為主導,使得開發(fā)人員可以騰出時間來解決尚未真正意義上的問題與解決,實現(xiàn)技術(shù)社區(qū)內(nèi)自然的分工協(xié)作。現(xiàn)在市面上符合中國用戶習慣的高質(zhì)量大模型是十分欠缺的,這也是很多大型實驗室決定開源的原因。
如果是純粹企業(yè)主導,大模型更多走向閉源。其數(shù)據(jù)一般是私有的,更注重落地。但他們有幾億的或者幾十億的經(jīng)費,直接租用一年的算力資源,可以一年從頭到尾不間斷訓練。
因為大模型的訓練本質(zhì)上就是一個超大的訓練任務,比如在 1000 張(或更多)GPU 卡上跑兩、三個月。測算了一下,購買 1000 張 H800 按市場價,就要投入 3 億資金。即便是租用算力也容易以億元為計。通常實驗室支撐不了如此大的成本。
《醫(yī)健 AI 掘金志》:大模型 " 智能涌現(xiàn) " 令人興奮,是否導致存在一些發(fā)展誤區(qū)?或者說大模型存在一定泡沫?
陳紅陽:過于追求參數(shù)規(guī)模,是大模型發(fā)展中存在的一大誤區(qū)。
僅僅增加模型的規(guī)模并不一定能夠帶來更好的性能,模型性能和其它許多因素相關,比如網(wǎng)絡結(jié)構(gòu)、數(shù)據(jù)質(zhì)量等。一味地堆疊參數(shù)量可能會帶來一些問題:
1,過擬合風險。導致模型泛化能力下降,雖然在訓練集上表現(xiàn)良好,但在下游任務上表現(xiàn)不佳。
2,缺乏解釋性。大量參數(shù)使得模型的決策過程難以解釋,也就是我們常說的 " 黑盒問題 ",這使得大模型缺乏可解釋性和可信性。
3,資源不足。增加參數(shù)量可能會增加存儲、傳輸和計算資源的負擔。因此,在選擇模型規(guī)模時,需要權(quán)衡具體任務要求、可用資源和訓練數(shù)據(jù)大小等因素。
但國內(nèi)大模型還應該繼續(xù)向前發(fā)展,太早的剎車反倒有可能形成泡沫。
《醫(yī)健 AI 掘金志》:下半年,生物垂類大模型的技術(shù)演變方向是怎樣的?
陳紅陽:一定程度上,未來的大模型應用趨勢一定是 " 大模型 + 知識 + 行業(yè)應用 " 的模式。大模型將成為未來 AI 產(chǎn)品的操作系統(tǒng),將會催生全新的 " 模型即服務 " 產(chǎn)業(yè)。
目前的大模型能夠為用戶提供基礎的知識服務,它就像一個不那么準確的知識庫或搜索引擎,只能提供一些很基礎的服務,而且無法保證準確、可控和可解釋,這將極大限制它在實際場景的應用。
因為用戶無法接受胡說八道、不準確、不負責任的服務。
所以,必須加上知識,讓大模型可控、可追溯、可解釋,并且能夠更精準地解決更專業(yè)的問題。
最后,大模型結(jié)合具體的應用才能讓智能算法和平臺落地,只有滿足用戶各種各樣的個性化需求才能產(chǎn)生價值。