AI智能評(píng)分相差甚遠(yuǎn) 真的靠譜嗎?
隨著人工智能的發(fā)展,有不少App都應(yīng)用了智能評(píng)分系統(tǒng)。但同時(shí),也有不少家長(zhǎng)吐槽英語(yǔ)跟讀App評(píng)分,英語(yǔ)專業(yè)八級(jí)水平的得分也只有80分。
除了應(yīng)用于口語(yǔ)語(yǔ)音智能評(píng)分,人工智能還被應(yīng)用于判卷上。不過(guò),近日一款號(hào)稱服務(wù)于美國(guó)兩萬(wàn)所學(xué)校的AI教學(xué)平臺(tái)卻翻車了,被“打臉”的就是搭載在平臺(tái)上的AI閱卷系統(tǒng),學(xué)生們借助它的漏洞“裸考”就能輕松及格。之所以被學(xué)生們鉆了“空子”,是由于該系統(tǒng)只是通過(guò)關(guān)鍵詞進(jìn)行評(píng)分,學(xué)生們只要借助題目中的“關(guān)鍵詞沙拉”,就能順利過(guò)關(guān)甚至獲得高分。
閱卷前需先設(shè)定評(píng)判標(biāo)準(zhǔn)
“自動(dòng)測(cè)評(píng)打分、閱卷系統(tǒng)一般需要先設(shè)定評(píng)測(cè)的標(biāo)準(zhǔn),而后根據(jù)設(shè)定的標(biāo)準(zhǔn)去設(shè)計(jì)合適的評(píng)測(cè)算法與模型。”天津大學(xué)智能與計(jì)算學(xué)部教授、博士生導(dǎo)師熊德意介紹,比如像口語(yǔ)測(cè)評(píng)打分,就需要機(jī)器去評(píng)判人的發(fā)音是否標(biāo)準(zhǔn),所讀句子的重音是否正確,讀出的語(yǔ)句是否連貫流暢,連讀部分是否準(zhǔn)確等。這些都可能是評(píng)判的標(biāo)準(zhǔn)。
AI閱卷系統(tǒng)則涉及到對(duì)語(yǔ)言文字的評(píng)判,涵蓋很多方面,如語(yǔ)法、語(yǔ)義等,會(huì)大量運(yùn)用到自然語(yǔ)言處理技術(shù)。
“自然語(yǔ)言處理是人工智能的一個(gè)重要分支,研究利用計(jì)算機(jī)對(duì)自然語(yǔ)言進(jìn)行智能化處理,基礎(chǔ)的自然語(yǔ)言處理技術(shù)主要圍繞語(yǔ)言的不同層級(jí)展開(kāi),包括音位(語(yǔ)言的發(fā)音模式)、形態(tài)(字、字母如何構(gòu)成單詞、單詞的形態(tài)變化)、詞匯(單詞之間的關(guān)系)、句法(單詞如何形成句子)、語(yǔ)義(語(yǔ)言表述對(duì)應(yīng)的意思)、語(yǔ)用(不同語(yǔ)境中的語(yǔ)義解釋)、篇章(句子如何組合成段落)7個(gè)層級(jí)”熊德意強(qiáng)調(diào),這些基本的自然語(yǔ)言處理技術(shù)經(jīng)常被運(yùn)用到下游的多種自然語(yǔ)言處理任務(wù)(如機(jī)器翻譯、對(duì)話、問(wèn)答、文檔摘要等)中,自動(dòng)閱卷中的語(yǔ)言文字評(píng)測(cè)通常涉及這7個(gè)層級(jí)的若干層。
設(shè)計(jì)自動(dòng)評(píng)測(cè)指標(biāo)的方法有多種,通常會(huì)根據(jù)不同的評(píng)判類型去選擇適合的方法。“比如閱卷系統(tǒng)若要進(jìn)行翻譯題的自動(dòng)評(píng)判,可以讓老師事先寫好多個(gè)參考譯文答案,然后把學(xué)生的答案和參考答案進(jìn)行類比。計(jì)算它們的相似度作為學(xué)生答案好壞的評(píng)測(cè)指標(biāo)。”熊德意舉例說(shuō),機(jī)器翻譯常用的評(píng)測(cè)指標(biāo)BLEU,就是基于參考譯文和機(jī)器譯文之間的N-grams(N元)匹配度計(jì)算相似度的。
一個(gè)單詞是一元,兩個(gè)相連的單詞是二元,還有三元、四元,如果答案中有一個(gè)單詞與參考答案中的單詞一致,那么就會(huì)給出一個(gè)一元評(píng)分,類似地可以計(jì)算二元、三元、四元的評(píng)分。我們?yōu)椴煌O(shè)置不同權(quán)重,然后把得分統(tǒng)籌起來(lái)變成一個(gè)客觀值,得分越高就說(shuō)明兩者之間的相似性越高。
為啥不同AI評(píng)分相差甚遠(yuǎn)
此次AI閱卷翻車的導(dǎo)火索是一個(gè)歷史系的教授的學(xué)霸兒子在進(jìn)行歷史考試的時(shí)候只得到了50%的分?jǐn)?shù),而她對(duì)兒子的答案進(jìn)行評(píng)測(cè)后,覺(jué)得孩子的回答是基本沒(méi)有問(wèn)題的。
同樣的答案,人工評(píng)價(jià)和機(jī)器評(píng)價(jià)為何有如此大的出入?
“這就是基于AI算法的自動(dòng)評(píng)測(cè)面臨的最大挑戰(zhàn):如何與人工評(píng)價(jià)保持一致。應(yīng)對(duì)這個(gè)挑戰(zhàn)需要解決的問(wèn)題很多。比如如何制定合適的評(píng)測(cè)標(biāo)準(zhǔn),主觀題進(jìn)行自動(dòng)評(píng)測(cè)必須要有合適的評(píng)測(cè)標(biāo)準(zhǔn)和規(guī)范;比如如何應(yīng)對(duì)語(yǔ)言的千變?nèi)f化,語(yǔ)言的多樣性是自然語(yǔ)言處理的主要挑戰(zhàn)之一,語(yǔ)言的自動(dòng)測(cè)評(píng)和自動(dòng)處理都要面對(duì)多樣性的挑戰(zhàn);比如如何設(shè)計(jì)一個(gè)綜合性的評(píng)測(cè)指標(biāo),雖然目前有各種各樣的指標(biāo),但是很少有指標(biāo)綜合考慮語(yǔ)言文字的方方面面,例如作文自動(dòng)閱卷,可能要考慮用詞是否合理(詞匯)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內(nèi)容是否扣題(語(yǔ)義、語(yǔ)用)等”熊德意說(shuō),上面提到的BLEU就是只考慮了單詞形式的嚴(yán)格匹配,沒(méi)有考慮單詞的形態(tài)變化、語(yǔ)義相似性、譯文的句法合理性等因素。
“遵循的評(píng)測(cè)規(guī)則、評(píng)判的出發(fā)點(diǎn)不同,相應(yīng)的算法模型都不一樣,因此最后的結(jié)果也會(huì)相差甚遠(yuǎn)。”
因此僅僅利用一種評(píng)測(cè)方法顯然是不全面的,這也就解釋了當(dāng)孩子的母親嘗試在答案里加入“財(cái)富、商隊(duì)、中國(guó)、印度”等題目中的關(guān)鍵詞,即使這些關(guān)鍵詞之間沒(méi)有任何串聯(lián),她也得了滿分。“可能這個(gè)AI閱卷系統(tǒng)只使用了簡(jiǎn)單的關(guān)鍵詞匹配,因此會(huì)出現(xiàn)‘關(guān)鍵詞沙拉’也能蒙混過(guò)關(guān)的情況。”熊德意解釋。
此外,口語(yǔ)的人工測(cè)評(píng)與機(jī)器測(cè)評(píng)也存在較大出入。“近年來(lái),語(yǔ)音識(shí)別性能雖然在深度學(xué)習(xí)技術(shù)的推動(dòng)下取得了顯著的提升,但是在開(kāi)放域、噪音環(huán)境下,這種識(shí)別率就會(huì)下降很多。”熊德意解釋。如果機(jī)器“聽(tīng)”錯(cuò)了一個(gè)單詞,而后機(jī)器進(jìn)行測(cè)評(píng),就會(huì)形成一個(gè)錯(cuò)誤傳播,也就是上游系統(tǒng)的錯(cuò)誤會(huì)導(dǎo)致下一系統(tǒng)錯(cuò)誤,錯(cuò)上加錯(cuò),越錯(cuò)越離譜,測(cè)評(píng)結(jié)果也會(huì)大相徑庭。
“目前有很多設(shè)計(jì)評(píng)測(cè)指標(biāo)的方法,還有很多改進(jìn)的方法,如在計(jì)算準(zhǔn)確率同時(shí)也計(jì)算召回率等。另外,還有對(duì)評(píng)測(cè)指標(biāo)進(jìn)行評(píng)測(cè),即評(píng)測(cè)的評(píng)測(cè),看看哪個(gè)評(píng)測(cè)指標(biāo)更完善,更和人的評(píng)價(jià)一致。”熊德意感嘆,自動(dòng)評(píng)測(cè)的難度和對(duì)應(yīng)的自然語(yǔ)言處理任務(wù)的難度,很多時(shí)候,從技術(shù)層面來(lái)說(shuō)是一樣的,比如用機(jī)器評(píng)價(jià)一個(gè)譯文的好壞與用機(jī)器生成一個(gè)譯文的難度類似,用機(jī)器評(píng)判一個(gè)文檔摘要的好壞與用機(jī)器生成一個(gè)摘要的難度也差不多。
未來(lái)或可以應(yīng)用于評(píng)判閱卷
“傳統(tǒng)的自動(dòng)評(píng)測(cè)指標(biāo)通常是基于符號(hào)進(jìn)行計(jì)算的,現(xiàn)在,深度學(xué)習(xí)等AI技術(shù)也越來(lái)越多地應(yīng)用于測(cè)評(píng)工具中。”熊德意介紹,使用深度學(xué)習(xí),可以把語(yǔ)言符號(hào)映射到實(shí)數(shù)稠密向量的語(yǔ)義空間,利用語(yǔ)義向量計(jì)算相似度。哪怕說(shuō)的詞語(yǔ)和計(jì)算機(jī)原本學(xué)習(xí)的不一樣,但是語(yǔ)義是一致的,機(jī)器就可以進(jìn)行精準(zhǔn)的評(píng)價(jià)。因此,基于深度學(xué)習(xí)的自動(dòng)評(píng)測(cè)某種程度上可以應(yīng)對(duì)語(yǔ)言的多樣性挑戰(zhàn)。
“不過(guò)深度學(xué)習(xí)也有一個(gè)問(wèn)題,就是需要大量的數(shù)據(jù)讓機(jī)器進(jìn)行學(xué)習(xí)。”熊德意解釋,將詞匯表大小維度的獨(dú)熱向量壓縮映射到幾百維的稠密向量,神經(jīng)網(wǎng)絡(luò)需要通過(guò)大量數(shù)據(jù)訓(xùn)練,才能學(xué)習(xí)到較好的映射函數(shù)。
基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練語(yǔ)言模型,近幾年,在語(yǔ)言表示學(xué)習(xí)中,取得了突破性的進(jìn)展。“OpenAI的預(yù)訓(xùn)練語(yǔ)言模型GPT-3,在 5000億單詞的海量語(yǔ)料上訓(xùn)練了一個(gè)帶有1750億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò),通過(guò)大量學(xué)習(xí)網(wǎng)絡(luò)上各種語(yǔ)言的文本,GPT-3形成了強(qiáng)大的語(yǔ)言表示能力,可以進(jìn)行多種任務(wù),比如自動(dòng)翻譯、故事生成、常識(shí)推理、問(wèn)答等,甚至可以進(jìn)行加減法運(yùn)算,比如兩位數(shù)加減法100%正確,五位數(shù)加減法正確率接近10%”熊德意介紹,不過(guò) 這么龐大的神經(jīng)網(wǎng)絡(luò),如果用單精度浮點(diǎn)數(shù)存儲(chǔ),需要700G的存儲(chǔ)空間,另外模型訓(xùn)練一次就花費(fèi)了460萬(wàn)美元。因此,即使GPT-3具有較好的零樣本、小樣本學(xué)習(xí)能力,其高昂的成本使其離普遍可用還有很遠(yuǎn)的距離。
但是AI作為閱卷評(píng)測(cè)“老師”,其又有人工不可比擬的優(yōu)勢(shì)。比如AI自動(dòng)批閱卷系統(tǒng)相比人工批閱速度更快,老師不可能一次記住所有的多項(xiàng)選擇題答案,需要不斷檢查標(biāo)準(zhǔn)答案,這是很費(fèi)時(shí)的,自動(dòng)批閱系統(tǒng)幫助老師大大提高了效率;另外,自動(dòng)批閱系統(tǒng)更加理性,不受外界條件干擾,不因疲勞等原因?qū)е抡`判。即使在復(fù)雜的干擾環(huán)境中,仍然可以得到正確的結(jié)果;AI閱卷系統(tǒng)還可以在評(píng)分后直接做好學(xué)情分析,統(tǒng)計(jì)出考試數(shù)據(jù)、錯(cuò)題數(shù)據(jù)等教學(xué)材料,幫助老師減負(fù)、增效,幫助學(xué)生提高學(xué)習(xí)效率。
“將主觀題合理地客觀化(比如變成選擇題),可以降低自動(dòng)閱卷的難度。”熊德意表示,對(duì)無(wú)法客觀化的主觀題,雖然設(shè)定全面的評(píng)測(cè)標(biāo)準(zhǔn)比較難,但是設(shè)定某一方面的評(píng)測(cè)標(biāo)準(zhǔn)還是可行的,比如針對(duì)單詞詞法、句子語(yǔ)法的評(píng)判,目前準(zhǔn)確率還是挺高的,這類技術(shù)可以從實(shí)驗(yàn)室走向產(chǎn)品應(yīng)用。
也可以引入人工評(píng)測(cè),對(duì)AI閱卷系統(tǒng)打分進(jìn)行復(fù)核與修正,通過(guò)這種反復(fù)的修正,累積大量的評(píng)測(cè)訓(xùn)練數(shù)據(jù),讓機(jī)器評(píng)分變得更加智能。
“利用自然語(yǔ)言處理等人工智能技術(shù),進(jìn)一步完善主觀智能評(píng)分系統(tǒng),將是未來(lái)教育領(lǐng)域的一個(gè)非常重要的課題。”熊德意充滿信心地說(shuō),以后的AI自動(dòng)批閱系統(tǒng)肯定會(huì)越來(lái)越“聰明”,人工智能與教育的結(jié)合也會(huì)越來(lái)越緊密。(科技日?qǐng)?bào)記者 陳曦)
關(guān)鍵詞: AI閱卷 評(píng)分系統(tǒng)
您可能也感興趣:
- 中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展高峰論壇舉行 把...
- 智能可穿戴材料國(guó)際論壇舉行 為產(chǎn)業(yè)發(fā)...
- 人工智能安全測(cè)評(píng)白皮書發(fā)布 提升安全...
- 智能制造系統(tǒng)工程學(xué)術(shù)會(huì)議舉行,助力“...
- 發(fā)改委發(fā)布14個(gè)運(yùn)用智能技術(shù)服務(wù)老年人...
- 我國(guó)機(jī)器人加速向智能化演進(jìn),機(jī)器人技...
- 火電廠分散控制系統(tǒng)擁有了全國(guó)產(chǎn)化“智...
- 佛山智能家居特色產(chǎn)業(yè)集群衍生出一批新...
今日熱點(diǎn)
為您推薦
保險(xiǎn)打工人年終獎(jiǎng)多數(shù)和上年持平或下降,怎樣發(fā)才合理?
A股5家上市險(xiǎn)企去年保費(fèi)收入增長(zhǎng)0.03% 行業(yè)整體增速放緩
8家險(xiǎn)企股權(quán)被掛牌轉(zhuǎn)讓,為何險(xiǎn)企股權(quán)不再被追捧?
更多
- 科技部和浙江發(fā)布《創(chuàng)新行動(dòng)方案》 構(gòu)建高標(biāo)準(zhǔn)技術(shù)要素市場(chǎng)...
- 蕪湖釋放創(chuàng)新“N次方”效應(yīng) 數(shù)字賦能驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)
- 重慶:激發(fā)人才創(chuàng)新活力,到2025年創(chuàng)新要素活躍度顯著增強(qiáng)
- 西寧加快知識(shí)產(chǎn)權(quán)強(qiáng)市建設(shè)步伐 去年兌現(xiàn)資助資金200萬(wàn)元
- 無(wú)錫錫山區(qū)全面啟動(dòng)實(shí)施“雙招雙引” 引進(jìn)高端創(chuàng)新資源
- 重慶巴南區(qū)落實(shí)創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略 以科技創(chuàng)新引領(lǐng)五大產(chǎn)業(yè)集...
- 朝陽(yáng)北票經(jīng)開(kāi)區(qū)加快推進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展 推動(dòng)體制機(jī)制創(chuàng)新
- 湖北省先進(jìn)低碳冶金產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)合體組建 打造五千億級(jí)產(chǎn)...
更多
- 我國(guó)進(jìn)一步縮短負(fù)面清單 為外商投資提供更廣闊的空間
- 年報(bào)業(yè)績(jī)預(yù)告火熱披露中 投資者要警惕高股價(jià)的財(cái)務(wù)大洗澡行為
- 遼寧省招商引資保持較高增速 今年將全力打造對(duì)外開(kāi)放新前沿
- 指導(dǎo)企業(yè)鞏固傳統(tǒng)市場(chǎng)、開(kāi)拓新興市場(chǎng) 促進(jìn)綠色貿(mào)易健康發(fā)展
- 去年湖南GDP同比增長(zhǎng)7.7% 固定資產(chǎn)投資增長(zhǎng)7.8%
- 深圳不斷提升對(duì)外投資水平 “走出去”服務(wù)水平顯著提高
- 去年實(shí)際使用外資達(dá)1.1萬(wàn)億元 來(lái)源地投資穩(wěn)定增長(zhǎng)
- 北京“十四五”投資實(shí)現(xiàn)良好開(kāi)局 高技術(shù)產(chǎn)業(yè)投資亮眼
排行
- 中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展高峰論壇舉行 把脈語(yǔ)音產(chǎn)業(yè)未來(lái)走向
- 古裝劇雷同現(xiàn)實(shí)劇抬頭 "腦洞劇"走紅反映觀眾訴求
- 來(lái)不及減肥也可以瘦5斤
- 南京老舊小區(qū)增梯 已有1463部簽訂協(xié)議
- 2018型男們的選包方案!
- 新房裝好一年多墻壁脫落
- 制造行業(yè)升級(jí)大勢(shì)所趨 可加速制造強(qiáng)國(guó)建設(shè)步伐
- 我國(guó)首個(gè)海上智能氣田群——東方氣田群全面建成
- 全新智能產(chǎn)業(yè)體系建立,中國(guó)智能產(chǎn)業(yè)將邁上更高的臺(tái)階
- 上海浦東新區(qū)人工智能技能大賽舉行
最近更新
- 粵海飼料的股票今日開(kāi)啟申購(gòu),公司老板是鄭石軒嗎?
- 開(kāi)超市需要辦理什么證件?辦理超市證件有哪些流程?
- 新年伊始,誼瑞智能床撬動(dòng)億萬(wàn)智能家居市場(chǎng)
- 個(gè)人養(yǎng)老金制度落地倒計(jì)時(shí) 各方加速布局
- 靠借款經(jīng)營(yíng)的科德教育打響職教“赤膊戰(zhàn)”?
- 據(jù)悉奧聯(lián)物業(yè)及李三毛收購(gòu)惠州金睿達(dá)物業(yè)92%股權(quán)
- 香江控股為子公司提供不超5000萬(wàn)貸款擔(dān)保 累計(jì)擔(dān)保余額27.87億元
- 四大券商整體降薪30%??jī)?nèi)部人:沒(méi)聽(tīng)說(shuō)!金領(lǐng)內(nèi)卷,競(jìng)爭(zhēng)殘酷
- 曲江文旅扭虧為盈:預(yù)計(jì)2021年度歸母凈利至多750萬(wàn)元
- 房子首付不夠怎么辦?房子首付能貸款嗎?
- 寵物用品進(jìn)貨渠道有哪些?這個(gè)垂直采購(gòu)平臺(tái)你需要了解
- 交強(qiáng)險(xiǎn)最多可以賠償多少?交強(qiáng)險(xiǎn)有哪些賠償項(xiàng)目?
- 新生兒醫(yī)保卡去哪里領(lǐng)取?領(lǐng)取新生兒醫(yī)保卡時(shí)需攜帶什么資料?
- 上海市人社局副局長(zhǎng)葉霖霖一行領(lǐng)導(dǎo)蒞臨社寶科技調(diào)研交流
- 菠蘿蜜沒(méi)熟可以吃嗎?菠蘿蜜該如何催熟?
- 蹲馬步一般要蹲多久?蹲馬步鍛煉有哪些注意事項(xiàng)?
- 哪些減肥操的效果比較好?減肥操一天可以做幾次?
- 新舊交鋒 2022年的酒店市場(chǎng)誰(shuí)能勝?
- 別忘了陪你吃康師傅的人
- 選車?yán)щy癥?家用MPV王者傳祺M6 PRO幫你治愈
- 二手高端消費(fèi)品市場(chǎng)發(fā)展?jié)摿薮螅湃挝C(jī)何解?
- 黑龍江:激發(fā)科技創(chuàng)新潛能,甄選重大科技成果做好就地轉(zhuǎn)化
- 山東將在中醫(yī)藥服務(wù)模式等方面開(kāi)展先行先試 不斷提升服務(wù)能力
- 精準(zhǔn)對(duì)標(biāo)SpaceX,瞄準(zhǔn)“液體可回收復(fù)用火箭”,深藍(lán)航天完成...
- 山東將培育農(nóng)業(yè)特色產(chǎn)業(yè)單項(xiàng)冠軍,如何走好“奪冠之路”?
- 混合云成為企業(yè)上云最優(yōu)選擇,未來(lái)發(fā)展挑戰(zhàn)與機(jī)遇并存
- 金普新區(qū)五大主導(dǎo)產(chǎn)業(yè)增勢(shì)強(qiáng)勁 持續(xù)推進(jìn)智能化升級(jí)
- 自貢高新區(qū)推進(jìn)營(yíng)商專員進(jìn)企業(yè) 著力打造“高興辦”營(yíng)商品牌
- 山東省新生優(yōu)勢(shì)加速凝聚 發(fā)展動(dòng)能實(shí)現(xiàn)新跨越
今日要聞
- 個(gè)人養(yǎng)老金制度落地倒計(jì)時(shí) 各方加速布局
- 靠借款經(jīng)營(yíng)的科德教育打響職教“赤膊戰(zhàn)”?
- 據(jù)悉奧聯(lián)物業(yè)及李三毛收購(gòu)惠州金睿達(dá)物業(yè)92%股權(quán)
- 香江控股為子公司提供不超5000萬(wàn)貸款擔(dān)保 累計(jì)擔(dān)保余額27.87億元
- 四大券商整體降薪30%??jī)?nèi)部人:沒(méi)聽(tīng)說(shuō)!金領(lǐng)內(nèi)卷,競(jìng)爭(zhēng)殘酷
- 曲江文旅扭虧為盈:預(yù)計(jì)2021年度歸母凈利至多750萬(wàn)元
- 二手高端消費(fèi)品市場(chǎng)發(fā)展?jié)摿薮螅湃挝C(jī)何解?
- 富山藥品植物酵素,給家人的健康選項(xiàng)
- 萬(wàn)億氫能市場(chǎng)起步,誰(shuí)會(huì)孵化下一個(gè)“寧德時(shí)代”?