首頁 > 科技要聞 > 科技> 正文

GPT-4頂替大學(xué)生參加考試,94%作弊未被揭穿!AI作弊毫無破綻

新智元 整合編輯:太平洋科技 發(fā)布于:2024-06-27 16:03

AI大模型參加考試,已經(jīng)通過圖靈測試!

調(diào)查顯示,94%的AI內(nèi)容,完全不會(huì)被大學(xué)老師發(fā)現(xiàn)。

而且「AI同學(xué)」的成績,83.4%的情況下顯著高于人類學(xué)生。

看來,AI真的是要把人類的考試給攻陷了。

其實(shí),早在GPT-4發(fā)布時(shí),OpenAI就聲稱,它能在SAT的閱讀和數(shù)學(xué)考試中分別打敗93%和89%的人類。

雖然數(shù)字讓人震驚,但技術(shù)報(bào)告中并沒有披露這些數(shù)據(jù)是如何得到的,以及實(shí)驗(yàn)的具體設(shè)置如何。這大大削弱了數(shù)據(jù)的可信度。

之前雖然也有很多關(guān)于AI參與考試作弊的研究,但它們大多是在實(shí)驗(yàn)環(huán)境中得出數(shù)據(jù),與真實(shí)情景還是有所差距。

但最近英國的研究人員在現(xiàn)實(shí)的大學(xué)考試中為AI做的這次「圖靈測試」,已經(jīng)將實(shí)驗(yàn)過程和數(shù)據(jù)以論文的形式發(fā)布了出來。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

結(jié)果發(fā)現(xiàn),雖然我們每天抱怨AI生成的文本「一眼假」,但實(shí)際上大學(xué)老師也很容易它蒙混過去,有94%的AI生成內(nèi)容——完全沒有被發(fā)現(xiàn)!

此外,AI內(nèi)容的平均水平也顯著高于人類同學(xué),差距大概是半個(gè)等級(jí)。在83.4%的情況下,AI的成績高于隨機(jī)選擇的學(xué)生。

這就讓人類真實(shí)的顫抖了……

這也就意味著,AI的「以假亂真」程度再次被證實(shí),在能力上不僅可以替代掉打工人,還在認(rèn)知任務(wù)上完全碾壓了大學(xué)生。

那么論文到底是如何描述這次「碾壓」的?我們先來看看具體過程。

「偽裝」過程

描述這種在真實(shí)世界中進(jìn)行的「圖靈測試」,畫面感強(qiáng)到像是真人秀現(xiàn)場。

團(tuán)隊(duì)選中了英國雷丁大學(xué)的心理學(xué)和臨床語言科學(xué)學(xué)院,但完全沒有告知考試評(píng)分員。除了參與批準(zhǔn)研究的人和負(fù)責(zé)幫助AI偽裝成學(xué)生的行政人員,沒有人知道這項(xiàng)正在開展的研究。

在COVID之后,像很多英國大學(xué)一樣,雷丁大學(xué)也更多地轉(zhuǎn)向線上考試。學(xué)生在規(guī)定時(shí)間中完成題目或論文,而且是完全的開卷模式,參考課程材料、論文、書籍、互聯(lián)網(wǎng)材料都是被允許的。

這項(xiàng)考試共有兩種題型,一是簡答題(SAQ),2.5小時(shí)內(nèi)完成,從6個(gè)問題中任選4題回答,答案不超過200詞;二是論文題(Essay),從3~4個(gè)題目中任選其一,在8小時(shí)內(nèi)完成一篇1500詞的論文。

每個(gè)考試模塊中都混入了約占總數(shù)5%的AI生成內(nèi)容。這個(gè)比例不會(huì)造成額外的評(píng)分負(fù)擔(dān),也讓兩位作者能夠在規(guī)定時(shí)間內(nèi)確保提交的AI內(nèi)容沒有出現(xiàn)自相似情況,否則會(huì)很容易被判定為抄襲。

實(shí)驗(yàn)中的5個(gè)部分,P表示考試的學(xué)生年級(jí),M表示考試內(nèi)容模塊

作者使用標(biāo)準(zhǔn)化的提示詞讓GPT-4生成每種類型考試的答案。對(duì)于簡答題(SAQ),提示詞是:

包括對(duì)學(xué)術(shù)文獻(xiàn)的引用,但不需要單獨(dú)的參考文獻(xiàn)部分,請(qǐng)用160詞回答以下問題:XXX

對(duì)于論文題,提示詞是:

包括對(duì)學(xué)術(shù)文獻(xiàn)的引用,但不需要單獨(dú)的參考文獻(xiàn)部分,請(qǐng)寫一篇2000詞的文章回答以下問題:XXX

在與GPT-4打交道時(shí),作者發(fā)現(xiàn)模型經(jīng)常不遵循提示中關(guān)于字?jǐn)?shù)的要求。簡答題總超字?jǐn)?shù),論文又寫不到規(guī)定長度,因此調(diào)整了提示詞中的字?jǐn)?shù)。

為了保證AI的「真實(shí)性」,GPT-4生成的內(nèi)容被100%原汁原味地搬運(yùn)到試卷上,作者沒有添加過渡文字或用任何方式修改文本內(nèi)容,最大的改動(dòng)就是為論文添加必要格式,或者刪去模型徑自生成的免責(zé)聲明和參考文獻(xiàn)。

總而言之,原則是保證100%的AI書面答案,但要在其他地方「藏好尾巴」,防止評(píng)分人員看出破綻。

如何評(píng)分

考試按照表2中的分級(jí)規(guī)則進(jìn)行評(píng)分。雷丁大學(xué)評(píng)估考試分?jǐn)?shù)的流程比較復(fù)雜,涉及多個(gè)步驟和評(píng)分角色。

首先,由一名評(píng)分員對(duì)提交內(nèi)容進(jìn)行打分,標(biāo)準(zhǔn)是看學(xué)生在多大程度上達(dá)到了評(píng)估目標(biāo)。

之后,分?jǐn)?shù)會(huì)呈遞給一位獨(dú)立審核員,他負(fù)責(zé)考量所有提交內(nèi)容的整體水平,并隨機(jī)選取、閱讀一部分作業(yè),同時(shí)也要過目那些第一名評(píng)分員標(biāo)記為不及格或潛在學(xué)術(shù)不端的作業(yè)。

此時(shí),審核員的角色不是對(duì)作業(yè)進(jìn)行二次評(píng)分,而是審查評(píng)分的質(zhì)量、一致性和適當(dāng)性。

有些模塊需要多個(gè)評(píng)分員共同打分。在這部分工作開始前,評(píng)分團(tuán)隊(duì)會(huì)進(jìn)行一次「校準(zhǔn)會(huì)議」,通過對(duì)少量作業(yè)進(jìn)行評(píng)分以及比較、討論,評(píng)分員們需要對(duì)于如何應(yīng)用評(píng)分標(biāo)準(zhǔn)達(dá)成一致。

此時(shí),審核員依舊要發(fā)揮作用,對(duì)同一內(nèi)容中不同評(píng)分員給分的一致性進(jìn)行檢查。

這項(xiàng)研究進(jìn)行于2023年夏季,當(dāng)時(shí)ChatGPT已經(jīng)發(fā)布,評(píng)分員們有什么檢測AI作弊的方法嗎?

當(dāng)時(shí),還沒有自動(dòng)檢測工具,評(píng)分員們只能依靠自己的直覺和經(jīng)驗(yàn),比如1)檢查答案是否「好得難以置信」,寫作風(fēng)格、內(nèi)容水平有沒有完全超出了對(duì)本科生能力的預(yù)期,2)答案的主要內(nèi)容是否為課上未教授內(nèi)容,3)引用的參考文獻(xiàn)與內(nèi)容本身無關(guān)。

這些經(jīng)驗(yàn)聽起來相當(dāng)靠譜,甚至是比較好地捕捉到了AI生成文本的特征。但結(jié)果發(fā)現(xiàn),人類的直覺終究是靠不住的。

實(shí)驗(yàn)結(jié)果

多少被發(fā)現(xiàn)了?

在這項(xiàng)研究中,只要評(píng)分員將作業(yè)標(biāo)記為「值得關(guān)注」,可能存在某種形式的不良學(xué)術(shù)行為或?qū)W術(shù)不端,都不需要特別提到AI,就算是被檢測到了。

即使規(guī)則如此寬松,檢測成功的百分比依舊少得可憐。如圖1和表3所示,在P2-M2和P3-M1的兩個(gè)論文題目中,檢測準(zhǔn)確率甚至為零。也就是說,作者分別混入的14篇和3篇AI文章完全沒有引起評(píng)分員的警覺。

圖1:各模塊中以及總體中,被標(biāo)記為AI的百分比

表3:AI答案的檢測統(tǒng)計(jì)數(shù)據(jù)

總體來看,AI提交的作業(yè)幾乎無法檢測,有94%的作業(yè)未被發(fā)現(xiàn)。

如果我們采用更嚴(yán)格的「檢測」標(biāo)準(zhǔn),要求標(biāo)記時(shí)必須特別提到AI,那么97%的AI提交作業(yè)未被發(fā)現(xiàn)。

圖2:各模塊和總體中,被標(biāo)記為AI的百分比

成績?nèi)绾危?/strong>

將被檢測出來的AI內(nèi)容剔除后,作者比較了GPT-4和人類學(xué)生的分?jǐn)?shù)分布情況。圖3中,橙色表示人類學(xué)生,藍(lán)色表示GPT-4。

可以看到,藍(lán)色部分相比橙色部分整體右移,說明AI的成績往往集中在真實(shí)成績分布的高端,中位數(shù)對(duì)應(yīng)First或者Upper Second等級(jí)。

其中P3-M1模塊是一個(gè)例外,AI的成績集中在真實(shí)分?jǐn)?shù)分布的低端。但考慮到這個(gè)模塊只混入了4篇AI內(nèi)容,遠(yuǎn)少于其他模塊,因此可能是數(shù)據(jù)過少造成的偏誤。

圖3:各模塊真實(shí)(橙色)和AI(藍(lán)色)的成績頻率直方圖,以及所有模塊的總成績頻率直方圖

單獨(dú)比較中位數(shù)則更能體現(xiàn)AI的優(yōu)勢,如圖4所示,除了P3-M1模塊略有落后,GPT-4的得分中位數(shù)完全超過了人類學(xué)生。

圖4:各模塊真實(shí)(橙色)和AI(藍(lán)色)的成績中位數(shù),以及所有模塊的總成績中位數(shù)

平均來看,AI提交作業(yè)的成績比真實(shí)學(xué)生高出半個(gè)等級(jí)以上,但在不同模塊中有所不同(見圖5)。

在P1-M2模塊,AI整體上獲得了1級(jí)成績,差距接近一個(gè)完整的等級(jí)。

圖5:各模塊和總體中,AI提交的成績相對(duì)于真實(shí)學(xué)生提交的成績的優(yōu)勢

AI拿高分的概率有多大?

論文提出通過以下方法了解AI超越真實(shí)學(xué)生的可能性。對(duì)于每個(gè)模塊的nm個(gè)AI提交作業(yè),計(jì)算出在同一模塊中,隨機(jī)抽取nm個(gè)真實(shí)學(xué)生提交作業(yè)被AI提交作業(yè)超越的可能性,這里的「超越」依舊用中位數(shù)衡量。

具體過程如下:(1)隨機(jī)選擇nm個(gè)真實(shí)學(xué)生提交作業(yè),(2)計(jì)算這些作業(yè)的中位成績,(3)查看nm個(gè)AI提交作業(yè)的中位成績是否高于這些成績,(4)進(jìn)行重復(fù)抽樣,即所有真實(shí)學(xué)生提交作業(yè)在每次抽樣中都保留在選擇池中,并進(jìn)行了10萬次重抽樣過程。

如圖6所示,除P3-M1模塊外,幾乎所有模塊中,隨機(jī)選取的nm個(gè)真實(shí)學(xué)生提交作業(yè)被相同數(shù)量的AI作業(yè)超越的概率接近100%。例外的是P3-M1模塊,其中AI提交作業(yè)在19%的情況下優(yōu)于真實(shí)學(xué)生。

總體來看,各模塊中隨機(jī)選取的nm個(gè)真實(shí)學(xué)生提交作業(yè)AI超越的概率為83.4%。

圖6:隨機(jī)選擇nm份真實(shí)學(xué)生的成績,中位數(shù)低于AI成績的概率

這一結(jié)果可以反映出,AI提交作業(yè)能非常穩(wěn)定地獲得比真實(shí)學(xué)生更高的成績。從成績直方圖(圖3)可以明顯看出,AI提交作業(yè)的成績往往集中在真實(shí)學(xué)生成績分布的高端。

實(shí)際上,我們可以簡單地計(jì)算每個(gè)模塊(以及總體)中,有多少學(xué)生提交作業(yè)的成績超過了AI的中位數(shù)成績,如圖7所示。

正如預(yù)期的那樣,也與圖6中的重抽樣結(jié)果一致?傮w來看,只有16%的學(xué)生提交作業(yè)成績超過了AI在同一模塊的中位數(shù)成績。

圖7:學(xué)生成績高于AI的成績中位數(shù)的百分比

成績和可檢測性的可視化

通過在二維空間中繪制數(shù)據(jù),就可以全面了解AI獲得的成績,及其可檢驗(yàn)性。

在下圖中,x軸表示AI提交作業(yè)的可檢測性,y軸表示AI提交作業(yè)的中位成績。

研究者希望,數(shù)據(jù)可以位于某些特定區(qū)域。

其中,「最佳情況」是數(shù)據(jù)位于右下角,此時(shí)AI的可檢測性為100%,但成績?yōu)?%。

但從學(xué)術(shù)誠信的角度來看,另一種理想情況就是數(shù)據(jù)位于右上角。

這也就意味著——學(xué)生使用AI作弊,并且獲得了100%的成績,但我們能100%地檢測到他們作弊了。

不理想的情況,就是數(shù)據(jù)位于左下角了,此時(shí)我們無法檢測到AI的使用,但它的成績?yōu)?%。

因此,使用AI作弊的學(xué)生可能會(huì)發(fā)現(xiàn),自己做作業(yè)能獲得更高的成績,從而不再作弊。

最糟糕的情況是數(shù)據(jù)位于左上角,此時(shí)我們根本無法檢測到AI的使用,但它卻獲得了100%的成績。

顯然,這是我們最不愿意看到的事。

圖8:AI的可探測性及其達(dá)到的等級(jí)匯總

結(jié)論與討論

在這次測試中,研究人員對(duì)GPT-4生成的文本內(nèi)容沒有進(jìn)行任何修改。但現(xiàn)實(shí)世界的更可能的情況是,學(xué)生會(huì)對(duì)生成內(nèi)容進(jìn)行潤色和調(diào)整,這會(huì)使學(xué)術(shù)不端行為更難被發(fā)現(xiàn)。

總體而言,這個(gè)結(jié)果是令人擔(dān)憂的。GPT-4的能力讓學(xué)生們可以在利用AI作弊的情況下很難被發(fā)現(xiàn),而且有極高的概率能取得更好的成績。

GPT-4在模塊P3-M1的表現(xiàn)明顯落后,這有兩種可能的解釋,一是數(shù)據(jù)不足導(dǎo)致的偏誤,二是由于P3-M1的考試內(nèi)容涉及更為抽象的邏輯推理,這也恰好是AI仍不擅長的領(lǐng)域。

從另一個(gè)角度來看,這也啟發(fā)我們思考,應(yīng)該如何看待,甚至是改革大學(xué)教育的目標(biāo)與內(nèi)容。

去年Nature的一篇論文就發(fā)現(xiàn),AI在完成大學(xué)課程作業(yè)時(shí),已經(jīng)體現(xiàn)出信息搜索、集成以及批判性分析的能力,這可以完美構(gòu)成大學(xué)培養(yǎng)目標(biāo)的一部分。

https://www.nature.com/articles/s41598-023-38964-3

在評(píng)論區(qū),有推特網(wǎng)友質(zhì)疑,這項(xiàng)研究怕不會(huì)也是AI進(jìn)行的吧?

對(duì)此,作者鄭重承諾:研究內(nèi)容絕對(duì)是人類進(jìn)行的。

參考資料:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

本文來源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部