2025年GDC｜“以人為本”大模型評測體系正式發(fā)布

2025-02-26 846

核心提示：大模型能力越來越強(qiáng)，各類評測榜單層出不窮，模型分?jǐn)?shù)越刷越高，但大模型的能力對我們個(gè)人來說究竟有什么用，我們并不知道。2月2

“大模型能力越來越強(qiáng)，各類評測榜單層出不窮，模型分?jǐn)?shù)越刷越高，但大模型的能力對我們個(gè)人來說究竟有什么用，我們并不知道。”2月22日，在2025全球開發(fā)者先鋒大會(huì)（GDC）“浦江AI生態(tài)論壇”上，上海人工智能實(shí)驗(yàn)室雙聘研究員、上海交通大學(xué)教授翟廣濤表示，大模型終究要為人服務(wù)，當(dāng)前以模型為中心的先出題、再做題、算分的評價(jià)模式面臨數(shù)據(jù)泄露和性能飽和兩大挑戰(zhàn)，大模型出現(xiàn)“高分低能”。

為了應(yīng)對這種情況，上海人工智能實(shí)驗(yàn)室提出了“以人為本”的評測思路。上海人工智能實(shí)驗(yàn)室大模型開放評測平臺(tái)司南正式發(fā)布“以人為本”（Human-Centric eval）的大模型評測體系，系統(tǒng)評估大模型能力對人類社會(huì)的實(shí)際價(jià)值，為人工智能應(yīng)用更貼近人類需求提供可量化的人本評估標(biāo)注。

上海人工智能實(shí)驗(yàn)室提出“以人為本”的評測思路。

傳統(tǒng)大模型基準(zhǔn)測試普遍采用結(jié)果導(dǎo)向的評價(jià)標(biāo)準(zhǔn)，這種評價(jià)方式雖然能夠直觀反映模型性能，卻忽略了人類實(shí)際需求。司南團(tuán)隊(duì)提出的評測方案根據(jù)人類需求設(shè)計(jì)實(shí)際問題，讓人與大模型協(xié)作解決，再由人類對模型的輔助能力進(jìn)行主觀評分，以此補(bǔ)充客觀評價(jià)的不足，使評估更貼合人類感知。

其中，“認(rèn)知科學(xué)驅(qū)動(dòng)”評估框架圍繞解決問題能力、信息質(zhì)量、交互體驗(yàn)三大核心維度，構(gòu)建覆蓋多場景、多領(lǐng)域的主觀評測體系。通過模擬學(xué)術(shù)研究、數(shù)據(jù)分析、決策支持等真實(shí)人類需求，由用戶與大模型協(xié)作完成任務(wù)，并基于人類主觀反饋量化評估模型的實(shí)際應(yīng)用價(jià)值，為下一步技術(shù)研發(fā)與產(chǎn)業(yè)落地提供科學(xué)參考。

為了驗(yàn)證“以人為本”評估方式的有效性，同時(shí)評測大模型在研究生學(xué)術(shù)研究中的應(yīng)用價(jià)值，司南團(tuán)隊(duì)選取了當(dāng)前公認(rèn)的優(yōu)秀模型DeepSeek-R1、GPT-o3-mini、Grok-3作為評測對象，組織有學(xué)術(shù)研究需求的研究生參與。團(tuán)隊(duì)根據(jù)文獻(xiàn)綜述、數(shù)據(jù)分析、可行性研究等學(xué)術(shù)研究中的常見需求，設(shè)計(jì)了人工智能、法律、金融等8個(gè)領(lǐng)域的相關(guān)問題，研究生與大模型協(xié)作解決。實(shí)驗(yàn)結(jié)果顯示，所有受測模型分析準(zhǔn)確性、思考全面性、協(xié)助高效性維度能力均勢。DeepSeek-R1在解決生物、教育學(xué)科問題上表現(xiàn)突出；Grok-3在金融、自然領(lǐng)域優(yōu)勢明顯；GPT-o3-mini則在社會(huì)領(lǐng)域表現(xiàn)良好。

點(diǎn)贊 0反對 0舉報(bào) 0 收藏 0 打賞 0

更多>同類資訊

推薦圖文

賽默飛新品LabServ活	ibidi推出Silver Line
百林科推出全新 CytoL	賽默飛于第四屆進(jìn)博會(huì)

推薦資訊

點(diǎn)擊排行

• 螞蟻數(shù)科天璣實(shí)驗(yàn)室升級(jí) 聚焦“AI+產(chǎn)業(yè)”四大方	• 實(shí)驗(yàn)室新材料走進(jìn)綠色“好房子”
• 廣東石化智能實(shí)驗(yàn)室正式上線運(yùn)行	• 湘江實(shí)驗(yàn)室發(fā)布5項(xiàng)創(chuàng)新產(chǎn)品
• 波長光電股價(jià)微漲微納光學(xué)實(shí)驗(yàn)室建設(shè)取得進(jìn)展	• 現(xiàn)代中醫(yī)藥海河實(shí)驗(yàn)室中西醫(yī)主動(dòng)健康信息平臺(tái)發(fā)
• 阿里國際與上海人工智能實(shí)驗(yàn)室聯(lián)合發(fā)布首個(gè)應(yīng)用	• 之江實(shí)驗(yàn)室王堅(jiān)：“三體計(jì)算星座”目標(biāo)建成千星
• 浙江杭州：天目山實(shí)驗(yàn)室發(fā)布多款低空飛行器	• 重慶賽寶取得實(shí)驗(yàn)室試板收納裝置專利，解決試板

黄视频欧美_超碰欧美_97久久久久久久久_久久久久久国产精品免费免费狐狸_在线免费小视频_中文字幕 国产精品

2025年GDC｜“以人為本”大模型評測體系正式發(fā)布

黄视频欧美_超碰欧美_97久久久久久久久_久久久久久国产精品免费免费狐狸_在线免费小视频_中文字幕国产精品