新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》 百度文心一言多維度整體領(lǐng)先
人工智能技術(shù)不斷迭代引發(fā)新一輪科技革命和產(chǎn)業(yè)變革,進(jìn)一步提升人們對(duì)經(jīng)濟(jì)社會(huì)更加美好的體驗(yàn)。當(dāng)前,全球信息科技巨頭紛紛入局,智能化應(yīng)用走向了以大語(yǔ)言模型(簡(jiǎn)稱(chēng):LLM即Large Language Model,大語(yǔ)言模型)為代表的大模型時(shí)代。
為反映當(dāng)前LLM發(fā)展最新情況特點(diǎn),了解LLM產(chǎn)品應(yīng)用情況。近日,新華網(wǎng)與國(guó)內(nèi)權(quán)威科研機(jī)構(gòu)聯(lián)合推出《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》。選取文心一言、GPT-3.5、訊飛星火和ChatGLM等四個(gè)LLM產(chǎn)品(各測(cè)試模型基本情況如下圖),從內(nèi)容安全問(wèn)答、常識(shí)問(wèn)答、數(shù)學(xué)運(yùn)算、閱讀理解和主觀問(wèn)答等五個(gè)維度對(duì)LLM進(jìn)行多維度能力測(cè)試和分析。為便于評(píng)估和展示,測(cè)試分?jǐn)?shù)將分別轉(zhuǎn)換為百分制。
(相關(guān)資料圖)
報(bào)告顯示,以文心一言為代表的國(guó)產(chǎn)大模型在內(nèi)容安全、閱讀理解、常識(shí)問(wèn)答,數(shù)學(xué)運(yùn)算等方面的表現(xiàn)普遍較好,能準(zhǔn)確回應(yīng)測(cè)試問(wèn)題。尤其在內(nèi)容安全和數(shù)學(xué)運(yùn)算方面,國(guó)產(chǎn)大模型的優(yōu)勢(shì)相對(duì)更加明顯。國(guó)產(chǎn)大模型中,文心一言在內(nèi)容安全方面普遍能給出積極準(zhǔn)確的正面回應(yīng);在常識(shí)問(wèn)答,閱讀理解、主觀題目和數(shù)學(xué)運(yùn)算等方面表現(xiàn)均較為出色,具備更豐富的常識(shí)知識(shí)和更強(qiáng)大的邏輯運(yùn)算能力。
圖為多維度測(cè)試結(jié)果
具體來(lái)看,在內(nèi)容安全方面,文心一言獲得了115分,在本次測(cè)試中領(lǐng)跑,對(duì)于內(nèi)容安全問(wèn)題的敏感度也最高。而GPT-3.5和開(kāi)源模型ChatGLM由于沒(méi)有做相關(guān)嚴(yán)格約束,可能回答出一些存在政治或者文化偏見(jiàn)的內(nèi)容。此外,所有的LLM均對(duì)涉黃類(lèi)問(wèn)題很敏感,都未在相關(guān)回答上誘導(dǎo)。
在常識(shí)問(wèn)答方面,文心一言獲得了88分,GPT-3.5和訊飛星火均得到60分左右,ChatGLM僅獲得33分的成績(jī)。整體來(lái)說(shuō),大多數(shù)國(guó)內(nèi)LLM均具備基本的文化、歷史、地理和生活常識(shí)知識(shí),能準(zhǔn)確回答絕大多數(shù)常識(shí)問(wèn)題。而對(duì)于一些相對(duì)冷門(mén)的常識(shí)問(wèn)題,除文心一言外其他模型都給出了不同的錯(cuò)誤答案。
在數(shù)學(xué)運(yùn)算方面,文心一言獲得93分、訊飛星火和GPT-3.5分別獲得75、68分,而ChatGLM僅僅獲得11分。當(dāng)題目涉及一些基礎(chǔ)直接的數(shù)學(xué)運(yùn)算,所有的大模型基本都能算對(duì),這說(shuō)明當(dāng)前的大模型都能理解基本的計(jì)算規(guī)則。但是隨著題目變得復(fù)雜,只有文心一言和訊飛星火能正確回答該問(wèn)題。說(shuō)明包括文心一言和訊飛星火在內(nèi)的國(guó)產(chǎn)大模型在數(shù)學(xué)邏輯能力方面會(huì)優(yōu)于其他模型。另外,文心一言在解題目時(shí)會(huì)采用直接的算數(shù)解法,而訊飛星火等模型會(huì)采用解方程操作,說(shuō)明文心一言具有一定的逆向邏輯思維能力,解題方式更加簡(jiǎn)潔直接。
在閱讀理解方面,文心一言得到95分、GPT-3.5得到67分, 訊飛星火和ChatGLM分別獲得57分和33分。雖然大模型的部分輸出結(jié)果不能完全對(duì)應(yīng)正確答案,但大都角度正確且言之有理,說(shuō)明現(xiàn)有LLM在中文長(zhǎng)文本閱讀理解方面均具備較高水平。
在主觀題方面,各個(gè)模型的性能表現(xiàn)相差不多。其中,GPT-3.5取得了最好的結(jié)果,文心一言次之。具體而言,從流暢度方面來(lái)看,GPT-3.5的輸出文本最為流暢,不存在語(yǔ)言重復(fù)或者表述不清晰的現(xiàn)象。而文心一言存在少數(shù)表述重復(fù)的情況。從規(guī)范性角度來(lái)看,所有的模型均具備較為標(biāo)準(zhǔn)的回答格式,如包括解釋、分析、總結(jié)等基本步驟。這主要是因?yàn)榇竽P偷臄?shù)據(jù)輸入都具備固定數(shù)據(jù)模板,導(dǎo)致模型記住了這些特定模式。從理解力來(lái)看,GPT-3.5對(duì)主觀題的理解最為準(zhǔn)確,極少出現(xiàn)文不對(duì)題的情況,文心一言次之。文心一言在回答該類(lèi)組織創(chuàng)意問(wèn)題時(shí),更加傾向于表述活動(dòng)的組織細(xì)節(jié),比如介紹時(shí)間、地點(diǎn)、流程、活動(dòng)預(yù)算等信息。從事實(shí)性和全面性角度來(lái)看,均是GPT-3.5表現(xiàn)最好,說(shuō)明了其蘊(yùn)含的語(yǔ)義知識(shí)相對(duì)更加豐富。但在測(cè)評(píng)中國(guó)的一些風(fēng)俗習(xí)慣或者傳統(tǒng)文化相關(guān)的知識(shí)時(shí),它的性能遜色于國(guó)產(chǎn)語(yǔ)言模型。
此外,在所有被測(cè)LLM產(chǎn)品,目前僅文心一言可公開(kāi)使用由文生圖的多模態(tài)功能,但目前對(duì)一些易混淆的成語(yǔ)理解還有所欠缺。
LLM已經(jīng)成為人工智能技術(shù)應(yīng)用場(chǎng)景發(fā)展的新階段。隨著人工智能技術(shù)的不斷演進(jìn),必將引發(fā)一場(chǎng)經(jīng)濟(jì)社會(huì)應(yīng)用的人工替代化新思考。一方面,LLM的應(yīng)用場(chǎng)景將進(jìn)一步多元化。隨著技術(shù)的演進(jìn),LLM將不再局限于文本、音頻和視覺(jué)等基本形態(tài),還將具備嗅覺(jué)、觸覺(jué)、味覺(jué)、情感等多重信息感知和認(rèn)知能力,以數(shù)字化形式傳輸并指導(dǎo)人工智能進(jìn)行內(nèi)容創(chuàng)作。另一方面,大模型重新定義了人機(jī)交互,催生AI原生應(yīng)用,服務(wù)千行百業(yè)。大模型會(huì)深度融合到實(shí)體經(jīng)濟(jì)當(dāng)中去,助力中國(guó)數(shù)字經(jīng)濟(jì)開(kāi)創(chuàng)新一代人工智能發(fā)展階段。
未來(lái)LLM競(jìng)爭(zhēng)關(guān)鍵是算法是否更為接近和超越人類(lèi)的思維方式。目前LLM在邏輯推理的計(jì)算能力,靈活能力以及快速自學(xué)習(xí)能力決定領(lǐng)先的優(yōu)勢(shì)。在邏輯推理中更能理解人類(lèi)情感和接近超越人類(lèi)思維方式,使得模型更加智能,也是很多頭部LLM廠(chǎng)商的共同研發(fā)升級(jí)的追求。
關(guān)鍵詞:
您可能也感興趣:
- 新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)...
- 國(guó)家藥監(jiān)局發(fā)布《化妝品中他克莫司和吡...
- 春光科技:公司主要從事清潔電器軟管、...
- 中國(guó)天文學(xué)家提出新方法:“一箭雙雕”...
- 國(guó)家氣候中心預(yù)測(cè):今夏高溫?zé)崂恕㈦A段...
- 江淮汽車(chē):上半年銷(xiāo)量27.88萬(wàn)輛,純電動(dòng)...
- 注意!四川這25 個(gè)縣(市、區(qū))可能發(fā)...
- 新一周新債申購(gòu)信息一覽(7月10日-7月14日)
今日熱點(diǎn)
為您推薦
2023版1克熊貓金幣現(xiàn)在是多少價(jià)錢(qián)(2023年07月07日)
視頻:陜西鄉(xiāng)村產(chǎn)業(yè)振興帶頭人“頭雁”體驗(yàn)式培育蘋(píng)果產(chǎn)業(yè)班開(kāi)班
更多
- 藍(lán)莓產(chǎn)業(yè)助力興邊致富
- 我國(guó)科學(xué)家提出揭示宇宙第一代星系和暗物質(zhì)的新方法
- 文縣臨江鎮(zhèn)大坪村中藥材種植產(chǎn)業(yè)路維修項(xiàng)目中標(biāo)公示
- 沙灣市:做優(yōu)紡織產(chǎn)業(yè) 助推經(jīng)濟(jì)高質(zhì)量發(fā)展
- 新疆兵團(tuán):小麥迎豐收 收割正當(dāng)時(shí)
- 川投能源(600674.SH):1-6月累計(jì)完成發(fā)電量17.01億千瓦時(shí),同...
- 給中考加油的禮物,中考祝福禮物推薦?
- 寶豐:冬瓜吊著長(zhǎng) 畝均收入破萬(wàn)元
更多
- 未來(lái)一周后期海南多陣性降雨
- 同程旅行(00780)發(fā)行693.25萬(wàn)股獎(jiǎng)勵(lì)股份
- “商湯日日新”大模型體系全面升級(jí),飛速迭代賦能百業(yè)日日生新
- 普達(dá)特科技(00650.HK):7月7日南向資金增持103.4萬(wàn)股
- 【津云鏡頭】2023天津夏季梅江車(chē)展今日開(kāi)幕!
- 金融管理部門(mén)善始善終推進(jìn)平臺(tái)企業(yè)金融業(yè)務(wù)整改 著力提升平...
- “精兵”出擊 蘇北運(yùn)河織密“防汛網(wǎng)”守牢“安全底線(xiàn)”
- 進(jìn)入“發(fā)錢(qián)季”,買(mǎi)銀行ETF(512800)能享受銀行股派息嗎?為...
排行
- 國(guó)家藥監(jiān)局發(fā)布《化妝品中他克莫司和吡美莫司的測(cè)定》化妝品...
- 蘭州:房企和中介拒絕公積金貸款將被嚴(yán)懲
- 華夏幸福青訓(xùn)的深耕與遠(yuǎn)播
- 全國(guó)自由式滑雪雪上技巧冠軍賽奏響十四冬序曲
- 華晨宇身著2018春夏Ermenegildo Zegna Couture系列亮相
- 錢(qián)江晚報(bào):“月薪2萬(wàn)難招工”,不必太焦慮
- 5G走進(jìn)百姓家,還需邁好這三步
- 家電網(wǎng)購(gòu)市場(chǎng)持續(xù)升溫
- 熒屏熱播劇大叔在“霸屏” 靠演技碾壓流量小鮮肉
- “i深圳”APP上線(xiàn)5大公共法律服務(wù)板塊,提供一站式服務(wù)
最近更新
- 新華網(wǎng)聯(lián)合權(quán)威機(jī)構(gòu)發(fā)布《國(guó)內(nèi)LLM產(chǎn)品測(cè)試報(bào)告》 百度文心一...
- 7月7日國(guó)內(nèi)氫氟酸產(chǎn)業(yè)鏈價(jià)格走勢(shì)暫穩(wěn)
- “商湯日日新”大模型體系全面升級(jí),飛速迭代賦能百業(yè)日日生新
- 喜報(bào)!新田縣健康縣建設(shè)獲評(píng)國(guó)家優(yōu)秀案例
- 7月7日國(guó)內(nèi)DOP企業(yè)報(bào)價(jià)上漲
- 海南最新平均工資出爐 最賺錢(qián)的行業(yè)是……
- 高凌信息(688175.SH):漢虎納蘭德及其一致行動(dòng)人累計(jì)減持92.91萬(wàn)股
- 央行發(fā)布《中央銀行存款賬戶(hù)管理辦法》 8月15日起施行
- “常與善會(huì)”山東金石文化傳承系列展活動(dòng)圓滿(mǎn)開(kāi)幕
- 高盛“掀桌子”VS中資券商反擊,二者激辯的焦點(diǎn)是什么
- 張鈸院士:人工智能通用理論即將形成,AI革命發(fā)展勢(shì)不可擋
- 國(guó)際航協(xié):5月份全球航空客運(yùn)量恢復(fù)至2019年同期水平96.1%
- 券商界大瓜迎來(lái)結(jié)局!原浙商證券研究所所長(zhǎng)助理陳杭跟譚珺和解了
- 漳州發(fā)展(000753)7月7日主力資金凈買(mǎi)入2474.76萬(wàn)元
- 超可愛(ài)!這些充滿(mǎn)童趣的展覽值得帶孩子一起看
- 守古道,探新路丨白沙液在名酒振興中穿越舊周期,競(jìng)速新賽道
- 羅永浩的“交個(gè)朋友”曲線(xiàn)上市成功!世紀(jì)睿科更名為交個(gè)朋友控股
- 農(nóng)業(yè)農(nóng)村部:7月7日“農(nóng)產(chǎn)品批發(fā)價(jià)格200指數(shù)”比昨天下降0.26個(gè)點(diǎn)
- 云南劃分野生菌中毒高、中、低風(fēng)險(xiǎn)區(qū),這七個(gè)地方列入高風(fēng)險(xiǎn)區(qū)
- 專(zhuān)家:電解水制氫設(shè)備使用綠電年均利用時(shí)數(shù)應(yīng)從兩三千小時(shí)提...
- 普達(dá)特科技(00650.HK):7月7日南向資金增持103.4萬(wàn)股
- 世貿(mào)組織投資便利化協(xié)定成功結(jié)束文本談判
- 未來(lái)一周后期海南多陣性降雨
- 唐山這些企業(yè)納入“科技型中小企業(yè)信息庫(kù)”
- 長(zhǎng)春凈月高新區(qū):靶向施策實(shí)現(xiàn)精準(zhǔn)發(fā)力,營(yíng)商持續(xù)迭代升級(jí)
- 海上觀瀾|2023世界人工智能大會(huì)開(kāi)幕式上首秀 這四項(xiàng)重大創(chuàng)...
- 一呼即應(yīng) 秦漢新城互動(dòng)服務(wù)運(yùn)營(yíng)中心上線(xiàn)
- 牙膏擠不動(dòng)了?陷入低谷的AMD如何再次YES?
- 山東新華制藥股份(00719.HK):7月7日南向資金增持59.2萬(wàn)股
- 上海腦中風(fēng)康復(fù)專(zhuān)科醫(yī)院排名_中風(fēng)引起偏癱要怎么治療康復(fù)?
今日要聞
- 海通國(guó)際(00665.HK):7月7日南向資金減持75.4萬(wàn)股
- 未來(lái)一周后期海南多陣性降雨
- 同程旅行(00780)發(fā)行693.25萬(wàn)股獎(jiǎng)勵(lì)股份
- “商湯日日新”大模型體系全面升級(jí),飛速迭代賦能百業(yè)日日生新
- 普達(dá)特科技(00650.HK):7月7日南向資金增持103.4萬(wàn)股
- 山東:474家中醫(yī)醫(yī)療機(jī)構(gòu)已開(kāi)展中醫(yī)日間醫(yī)療服務(wù)醫(yī)保支付試點(diǎn)工作
- 建設(shè)銀行龍鼎金條價(jià)格今天多少一克(2023年07月07日)
- 外匯局:6月匯率折算和資產(chǎn)價(jià)格變化等因素綜合作用 當(dāng)月外匯儲(chǔ)備規(guī)模上升
- 傳世有時(shí)技能按不出來(lái)(為什么傳世答題不了)
- 【津云鏡頭】2023天津夏季梅江車(chē)展今日開(kāi)幕!