免费45分钟毛片_免费播放中国毛片在线_欧美yw193.c㎝在线观看_五月婷之综合在线

資訊中心

電話: 0477-8394929
郵箱: ordoswh123@163.com
網(wǎng)址:m.n8dtx.com
今日科普|數(shù)學(xué)推理,大語(yǔ)言模型真的會(huì)了嗎?
時(shí)間:2024-12-16 09:15    瀏覽:75次

當(dāng)下,大語(yǔ)言模型似乎具備了與人交流對(duì)話的能力,不僅如此,大語(yǔ)言模型還能飛速完成很多人類需要花更多時(shí)間才能完成的文字生成任務(wù),比如,寫篇總結(jié)文章、作首詩(shī)、寫段Rap。然而,大語(yǔ)言模型的推理能力卻引起了很多爭(zhēng)議,近兩年來的很多測(cè)試顯示,大模型在計(jì)數(shù)、符號(hào)推理、算術(shù)推理、子集求和、幾何推理等方面的表現(xiàn)都不理想。

反復(fù)“刷題”,或?qū)е聰?shù)據(jù)污染

為了提高大模型的推理能力,Open AI發(fā)布了一個(gè)名為GSM8K的數(shù)據(jù)集,這個(gè)由人類寫手創(chuàng)造的數(shù)據(jù)集包含了8000多個(gè)小學(xué)數(shù)學(xué)問題和答案,其中有7473個(gè)訓(xùn)練問題和1319個(gè)測(cè)試問題。對(duì)于人類而言,這些問題只需用到簡(jiǎn)單的加、減、乘、除運(yùn)算,通過2~8個(gè)步驟,就可以得出最終答案。

經(jīng)過不斷地訓(xùn)練和調(diào)整,大語(yǔ)言模型在面對(duì)GSM8K時(shí),性能已經(jīng)有了顯著提高。但這是否真的意味著大模型的數(shù)學(xué)推理能力變強(qiáng)了?一種質(zhì)疑是,由于這個(gè)數(shù)據(jù)集的題目固定且被拿來反復(fù)使用,很可能出現(xiàn)數(shù)據(jù)污染——用于測(cè)試的例子同時(shí)也被包含在了模型的訓(xùn)練數(shù)據(jù)中。所以,即使測(cè)試結(jié)果變得更好了,也不能確認(rèn)這些大語(yǔ)言模型的數(shù)學(xué)推理能力真的提高了。

微調(diào)題庫(kù),測(cè)試應(yīng)變能力

今年10月,蘋果公司發(fā)布的一項(xiàng)測(cè)評(píng)證實(shí)了這一質(zhì)疑的合理性。為避開GSM8K可能導(dǎo)致的數(shù)據(jù)污染,蘋果公司的研究人員想出了一個(gè)好辦法,他們給出了一個(gè)在GSM8K基礎(chǔ)上進(jìn)行微調(diào)的測(cè)試系統(tǒng)GSM-Symbolic。微調(diào)方式主要有3種:替換題目中的專有名詞;改變其中的數(shù)字;添加無(wú)關(guān)信息。

舉個(gè)例子,假設(shè)原題庫(kù)中的題目是這樣的:

小明周五釣了6條魚,周六釣了15條魚,周日釣到的魚是周五的2倍,問小明總共收獲了多少條魚?

GSM-Symbolic對(duì)這道題采取以下3種方式進(jìn)行微調(diào):或是把原題中的小明換成小麗;或是把原題中6換成9,15換成23;或是增加一些無(wú)關(guān)信息,比如增加條件“周日釣到的魚中,有5條魚的重量低于平均值”。當(dāng)然,還可能把這幾種微調(diào)綜合在一起。基于這些微調(diào),從GSM8K數(shù)據(jù)集中的題目出發(fā),GSM-Symbolic可以千變?nèi)f化出更多題目來對(duì)大語(yǔ)言模型進(jìn)行評(píng)估。

從人類的視角來看,這些微調(diào)策略就是我們常說的“換湯不換藥”,做過小學(xué)數(shù)學(xué)題的讀者們?cè)偈煜げ贿^了。所謂“不換藥”,是說微調(diào)完全沒有涉及這些數(shù)學(xué)問題的邏輯結(jié)構(gòu),只是調(diào)整了一些無(wú)關(guān)參數(shù)。

正確率大幅下滑

但正是這樣的微調(diào),卻造成了大語(yǔ)言模型輸出答案正確率的大幅下滑。其中,無(wú)關(guān)信息的添加會(huì)導(dǎo)致所有最先進(jìn)的大語(yǔ)言模型的性能大幅下降,降幅高達(dá)65%。

蘋果公司的研究人員基于這些測(cè)評(píng)得出結(jié)論:大語(yǔ)言模型既不理解這些問題中的數(shù)學(xué)概念,也不能進(jìn)行邏輯推理,而僅僅是將面對(duì)的問題和訓(xùn)練數(shù)據(jù)中的問題進(jìn)行比較而已。

目前來看,大語(yǔ)言模型所得出的正確答案,主要體現(xiàn)了系統(tǒng)的記憶和匹配能力,這種應(yīng)答機(jī)制更像一種模式匹配,這與人類推理的機(jī)制完全不同,也沒有遵循邏輯。

人類才懂“萬(wàn)變不離其宗”

那么,人類在做小學(xué)數(shù)學(xué)推理題時(shí),究竟啟用了哪些隱藏技能?

筆者理解至少有兩條,一是透過現(xiàn)象看本質(zhì)的能力:人類能夠抓取或識(shí)別表層語(yǔ)言背后的一般性運(yùn)算和推理的規(guī)律;二是由內(nèi)及外、活學(xué)活用的能力:人類能夠通過非關(guān)鍵因素(比如前面提到的3種微調(diào)因素)的替換和變化展開千變?nèi)f化的實(shí)際應(yīng)用。

這兩條綜合起來,就是我們常說的“萬(wàn)變不離其宗”。

(作者系中國(guó)科學(xué)院哲學(xué)研究所教授)

運(yùn)營(yíng)機(jī)構(gòu):鄂爾多斯國(guó)家級(jí)文化和科技融合示范基地管委會(huì)

Email:ordoswh123@163.com 服務(wù)電話:0477-8394929

Copyright ? 2015-2021ordoswh.com All Rights Reserved. 創(chuàng)意草原 版權(quán)所有 蒙ICP備2021002117號(hào)-1