通過(guò)不斷學(xué)習(xí)變得更好是現(xiàn)代人工智能的一大賣(mài)點(diǎn)。但上周發(fā)布的新研究表明,隨著時(shí)間的推移,ChatGPT在某些任務(wù)上可能會(huì)變得越來(lái)越糟糕。
【資料圖】
根據(jù)斯坦福大學(xué)和加州大學(xué)伯克利分校研究人員的論文初稿,在GPT-3.5和GPT-4的結(jié)果中檢測(cè)到了相當(dāng)大的漂移偏差,這兩個(gè)OpenAI大型語(yǔ)言模型(LLM)是近期爆火的ChatGPT的基礎(chǔ)。
三位研究人員(其中包括斯坦福大學(xué)助理教授Matei Zaharia,他是Databricks的聯(lián)合創(chuàng)始人和Apache Spark的創(chuàng)始人,以及加州大學(xué)伯克利分校的Lingjiao Chen和James Zou)測(cè)試了兩種不同版本的LLM:2023年3月和2023年6月的GPT-3.5及GPT-4。
研究人員在人工智能任務(wù)的試驗(yàn)臺(tái)上運(yùn)行了這四個(gè)模型,包括數(shù)學(xué)問(wèn)題、回答敏感/危險(xiǎn)問(wèn)題、回答意見(jiàn)調(diào)查、回答多跳知識(shí)密集型問(wèn)題、生成代碼、美國(guó)醫(yī)學(xué)執(zhí)照考試和視覺(jué)推理。
結(jié)果顯示LLM給出的答案有相當(dāng)大的可變性。特別是,研究人員發(fā)現(xiàn),GPT-4在6月份的數(shù)學(xué)問(wèn)題回答中的表現(xiàn)比3月份的更差。使用思考鏈(COT)提示正確識(shí)別素?cái)?shù)的準(zhǔn)確率顯示,GPT-4的準(zhǔn)確率從3月份的84.0%下降到6月份的51.1%。與此同時(shí),GPT-3.5在同一測(cè)試中的準(zhǔn)確率從3月份的49.6%上升到6月份的76.2%。
作者思考了為什么GPT-4的準(zhǔn)確性下降了這么多,觀察到處理COT的行為是不同的。按照研究人員在COT提示下的要求,3月份的版本將任務(wù)分解為多個(gè)步驟。然而,6月份版本的GPT-4沒(méi)有給出任何中間步驟或解釋?zhuān)皇菍⒋鸢福ㄥe(cuò)誤地)生成為“否”。
第二道數(shù)學(xué)題也發(fā)現(xiàn)了類(lèi)似的漂移水平:發(fā)現(xiàn)“快樂(lè)”數(shù)字(研究人員寫(xiě)道,“如果用數(shù)字的平方和代替整數(shù)最終產(chǎn)生1,則稱(chēng)為‘快樂(lè)’數(shù)字)。研究人員寫(xiě)道:他們“在這項(xiàng)任務(wù)中觀察到了顯著的性能漂移”,GPT-4的準(zhǔn)確率從3月份的83.6%下降到了35.2%,六月GPT-3.5的準(zhǔn)確率從30.6%上升到48.2%。再次觀察到,GPT-4沒(méi)有遵循研究人員發(fā)布的COT命令。
當(dāng)研究人員向LLM提出敏感或危險(xiǎn)的問(wèn)題時(shí),也觀察到了變化。GPT-4回答問(wèn)題的意愿隨著時(shí)間的推移而下降,從3月份的21.0%上升到6月份的5.0%。相反,GPT-3.5變得更健談,從2.0%上升到5.0%。研究人員得出結(jié)論,OpenAI在GPT-4中采用了“更強(qiáng)的安全層”,而GPT-3.5則變得“不那么保守”。
意見(jiàn)調(diào)查測(cè)試顯示,GPT-4提交意見(jiàn)的可能性明顯降低,從3月份的97.6%的回復(fù)率降至3月份的22.1%,而篇幅冗長(zhǎng)(或字?jǐn)?shù))增加了近30個(gè)百分點(diǎn)。GPT-3.5的響應(yīng)率和冗長(zhǎng)程度幾乎沒(méi)有變化。
當(dāng)涉及到回答需要“多跳推理”的復(fù)雜問(wèn)題時(shí),發(fā)現(xiàn)了性能上的顯著差異。研究人員將LangChain的即時(shí)工程能力與HotpotQA Agent(用于回答多跳問(wèn)題)相結(jié)合,并指出GPT-4在生成完全匹配的答案方面的準(zhǔn)確率從1.2%提高到37.8%。然而,GPT-3.5的“精確匹配”成功率從22.8%下降到14.0%。
在代碼生成方面,研究人員觀察到,兩個(gè)LLM的輸出在可執(zhí)行性方面都有所下降。GPT-4的輸出在3月份有50%以上是直接可執(zhí)行的,而在6月份只有10%,GPT-3.5也有類(lèi)似的下降。研究人員發(fā)現(xiàn),GPT開(kāi)始在Python輸出中添加非代碼文本,如額外的標(biāo)點(diǎn)。他們推斷,額外的非代碼文本是為了使代碼更容易在瀏覽器中呈現(xiàn),但它使代碼不可執(zhí)行。
GPT-4在美國(guó)醫(yī)學(xué)執(zhí)照考試中的表現(xiàn)略有下降,從86.6%降至82.4%,而GPT-3.5下降了不到1個(gè)百分點(diǎn),降至54.7%。然而,GPT-4出錯(cuò)的答案隨著時(shí)間的推移而變化,這表明隨著3月份的一些錯(cuò)誤答案得到糾正,但LLM也有從正確答案變?yōu)殄e(cuò)誤答案情況出現(xiàn)。
視覺(jué)推理測(cè)試發(fā)現(xiàn),這兩個(gè)模型都有小的改進(jìn)。然而,總體準(zhǔn)確率(GPT-4為27.4%,GPT-3.5為12.2%)并不高。研究人員再次觀察到,模型對(duì)他們之前正確回答的問(wèn)題產(chǎn)生了錯(cuò)誤的答案。
研究人員寫(xiě)道,測(cè)試表明,GPT-3.5和GPT-4的性能和行為在短時(shí)間內(nèi)發(fā)生了顯著變化。
他們寫(xiě)道:“這突出了持續(xù)評(píng)估和評(píng)估應(yīng)用程序中LLM漂移行為的必要性,尤其是ChatGPT等LLM是如何隨時(shí)間更新的,這一點(diǎn)并不透明。”“我們的研究還強(qiáng)調(diào)了統(tǒng)一提高LLM多方面能力的挑戰(zhàn)。提高模型在某些任務(wù)中的性能,例如對(duì)額外數(shù)據(jù)進(jìn)行微調(diào),可能會(huì)對(duì)在其他任務(wù)中的行為產(chǎn)生意想不到的副作用。與此一致的是,GPT-3.5和GPT-4在某些任務(wù)上都變得更差,但在其他方面都有所改善。”
標(biāo)簽: