除了缺點(diǎn)創(chuàng)意，GPT-3寫(xiě)出了及格大學(xué)畢業(yè)論文，只需20分鐘

作者：機(jī)器之心 2021-03-03 15:34:57

GPT-3 寫(xiě)的論文及格了嗎？教育資源網(wǎng)站 EduRef 對(duì)此進(jìn)行了一項(xiàng)測(cè)試，效果還行，及格水平。

2020 年 5 月，OpenAI 推出了具有 1750 億參數(shù)的史上最大 AI 模型GPT-3，該模型不僅可以更好地答題、翻譯、寫(xiě)文章，還帶有一些數(shù)學(xué)計(jì)算的能力。自推出以來(lái)，該模型就開(kāi)始在不同的領(lǐng)域大顯身手，如基于問(wèn)題的搜索引擎、與歷史人物對(duì)話(huà)、基于文本描述生成代碼以及繪圖和圖像補(bǔ)全等等。

但 GPT-3 的應(yīng)用之路遠(yuǎn)未結(jié)束…

近日，教育資源網(wǎng)站 EduRef 進(jìn)行了一項(xiàng)測(cè)試，他們找了一組教授創(chuàng)建了一個(gè)寫(xiě)作提示，然后讓?xiě)?yīng)屆畢業(yè)生和本科生以及 GPT-3 同時(shí)根據(jù)該提示寫(xiě)作，最后教授組對(duì)匿名提交的作文打分，并對(duì)作者進(jìn)行追蹤調(diào)查。那么，究竟結(jié)果如何呢？GPT-3 的分?jǐn)?shù)能夠超過(guò)人類(lèi)作者嗎？未必！

GPT-3 通過(guò)了大部分課程的寫(xiě)作測(cè)試

常言道：「評(píng)級(jí)為 C 就可以畢業(yè)（C’s get degrees）」。AI 遠(yuǎn)遠(yuǎn)達(dá)不到完美，GPT-3 的寫(xiě)作水平大概相當(dāng)于自由寫(xiě)作者（freelance writer）。

結(jié)果顯示，在 COVID-19 疫苗效力的研究方法論文寫(xiě)作上，人類(lèi)作者可以得到 B 或者 D，而 GPT-3 往往只能得到 C。在美國(guó)歷史類(lèi)的測(cè)試中，人類(lèi)作者可以在美國(guó)例外主義論文中得到 B 或者 C+，而 GPT-3 只能得到 B-。最后，在法學(xué)課上的政策函寫(xiě)作中，GPT-3 得到了 B-，而 3 個(gè)學(xué)生中只有 1 個(gè)能夠得到高分。

下圖為人類(lèi)作者與 GPT-3 在不同學(xué)科寫(xiě)作中的得分情況：

除了缺點(diǎn)創(chuàng)意，GPT-3寫(xiě)出了及格大學(xué)畢業(yè)論文，只需20分鐘

由此可見(jiàn)，GPT-3 的寫(xiě)作技能主要體現(xiàn)在技術(shù)類(lèi)文檔中。在創(chuàng)意寫(xiě)作課程中的地點(diǎn)記敘文（place narrative）寫(xiě)作中，GPT-3 僅得到了 F，沒(méi)有通過(guò)測(cè)試。作為對(duì)比，自由寫(xiě)作者得到了 A、B + 和 D+。盡管在創(chuàng)意寫(xiě)作教授的眼中，GPT-3 失敗了，但自然語(yǔ)言生成（NLG）軟件依然可以用于編寫(xiě)各類(lèi)內(nèi)容，包括一部幾乎獲獎(jiǎng)的小說(shuō)《The Day a Computer Writes a Novel》。先前的成功也預(yù)示著以后的失敗，GPT-3 或許只需要一些調(diào)整即可以成為一名合格的創(chuàng)意作家。總的來(lái)說(shuō)，AI 幾乎通過(guò)了所有的課程寫(xiě)作測(cè)試。

GPT-3 20 分鐘完成論文

雖然每個(gè)教授打分都不一樣，但該評(píng)分小組包括兩名博士和一名醫(yī)學(xué)碩士。他們總共有超過(guò) 55 年的高中和各種大學(xué)水平的教學(xué)經(jīng)驗(yàn)。寫(xiě)作者包括應(yīng)屆畢業(yè)生和本科生，其中一些人在他們的研究領(lǐng)域?qū)懥颂崾尽Ｆ骄鶃?lái)說(shuō)，他們需要 3 天時(shí)間完成任務(wù)。

對(duì)于絕大多數(shù)學(xué)生來(lái)說(shuō)，3 天內(nèi)完成大學(xué)論文似乎是很難的事情，主要原因在于時(shí)間太短，但是GPT-3 在 20 分鐘內(nèi)就完成了這個(gè)任務(wù)。GPT-3 利用深度學(xué)習(xí)產(chǎn)生類(lèi)似人類(lèi)的文本，每項(xiàng)任務(wù)花費(fèi) 3 到 20 分鐘完成，并且用最長(zhǎng)的時(shí)間來(lái)編寫(xiě)創(chuàng)造性的寫(xiě)作敘述。為了避免人為干擾，GPT-3 只對(duì)輸出長(zhǎng)度和重復(fù)文本進(jìn)行了輕微的編輯，其生成的內(nèi)容、真實(shí)信息和語(yǔ)法都沒(méi)有受到影響。

GPT-3 生成的美國(guó)歷史類(lèi)作文示例如下：

GPT-3 可生成類(lèi)似人類(lèi)寫(xiě)作的內(nèi)容

即使沒(méi)有人為干擾，GPT-3 的任務(wù)也或多或少地收到了與人類(lèi)作者相同的反饋。49.2% 的評(píng)論涉及語(yǔ)法和句法，26.2% 的評(píng)論涉及重點(diǎn)和細(xì)節(jié)，語(yǔ)氣與行文結(jié)構(gòu)等也被提及，但分別只有 12.3% 和 10.8%。這與人類(lèi)作家收到的評(píng)論比例幾乎相同，近 50% 的評(píng)論與語(yǔ)法和句法有關(guān)，25.4% 的評(píng)論與焦點(diǎn)和細(xì)節(jié)有關(guān)。超過(guò) 13% 的評(píng)論是關(guān)于人類(lèi)專(zhuān)業(yè)知識(shí)，而 10.4% 的評(píng)論是關(guān)于整體風(fēng)格等。

人類(lèi)作者與 GPT-3 的寫(xiě)作結(jié)果收到的評(píng)論反饋情況：

盡管收到了同樣風(fēng)格的評(píng)論，GPT-3 生成的內(nèi)容與人類(lèi)作者并不那么相似。以排名靠前的兩個(gè)單詞組合為例，GPT-3 和人類(lèi)作者只分享了排名靠前的組合:「of the」。「People who」、「it is」和「those who」常被 GPT-3 使用，而人類(lèi)作者經(jīng)常使用的是「to the」、「in the」和「on the」。總體來(lái)說(shuō)，這些單詞是在英語(yǔ)中經(jīng)常使用的，組合上的差異顯示出 AI 和人類(lèi)在寫(xiě)作結(jié)構(gòu)上的一些差異。

人類(lèi)作者與 GPT-3 在寫(xiě)作用詞上的差異分析：

考慮到 GPT-3 超高的論文得分，搭配統(tǒng)計(jì)數(shù)據(jù)的差異表明，人類(lèi)作者比 AI 產(chǎn)生的獨(dú)特內(nèi)容明顯更多。

盡管 GPT-3 具有出色的產(chǎn)出，但其生成的論文在短期內(nèi)還無(wú)法獨(dú)立獲得大學(xué)學(xué)位。當(dāng)與人類(lèi)作者競(jìng)爭(zhēng)時(shí)，GPT-3 獲得了一些及格分?jǐn)?shù)，但在創(chuàng)意寫(xiě)作方面有所欠缺。盡管它在眾多領(lǐng)域的成功為 AI 的未來(lái)帶來(lái)了希望，但對(duì)大學(xué)教授來(lái)說(shuō)，AI 依然存在不足。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心Pro

人工智能機(jī)器學(xué)習(xí)技術(shù)