&

資訊中心

電話: 0477-8394929
郵箱: ordoswh123@163.com
網(wǎng)址：m.n8dtx.com

當(dāng)前位置: 首頁(yè) > 資訊中心 > 產(chǎn)業(yè)資訊

今日科普|數(shù)學(xué)推理，大語(yǔ)言模型真的會(huì)了嗎？

時(shí)間：2024-12-16 09:15 瀏覽：75次

當(dāng)下，大語(yǔ)言模型似乎具備了與人交流對(duì)話的能力，不僅如此，大語(yǔ)言模型還能飛速完成很多人類需要花更多時(shí)間才能完成的文字生成任務(wù)，比如，寫篇總結(jié)文章、作首詩(shī)、寫段Rap。然而，大語(yǔ)言模型的推理能力卻引起了很多爭(zhēng)議，近兩年來的很多測(cè)試顯示，大模型在計(jì)數(shù)、符號(hào)推理、算術(shù)推理、子集求和、幾何推理等方面的表現(xiàn)都不理想。

反復(fù)“刷題”，或?qū)е聰?shù)據(jù)污染

為了提高大模型的推理能力，Open AI發(fā)布了一個(gè)名為GSM8K的數(shù)據(jù)集，這個(gè)由人類寫手創(chuàng)造的數(shù)據(jù)集包含了8000多個(gè)小學(xué)數(shù)學(xué)問題和答案，其中有7473個(gè)訓(xùn)練問題和1319個(gè)測(cè)試問題。對(duì)于人類而言，這些問題只需用到簡(jiǎn)單的加、減、乘、除運(yùn)算，通過2~8個(gè)步驟，就可以得出最終答案。

經(jīng)過不斷地訓(xùn)練和調(diào)整，大語(yǔ)言模型在面對(duì)GSM8K時(shí)，性能已經(jīng)有了顯著提高。但這是否真的意味著大模型的數(shù)學(xué)推理能力變強(qiáng)了？一種質(zhì)疑是，由于這個(gè)數(shù)據(jù)集的題目固定且被拿來反復(fù)使用，很可能出現(xiàn)數(shù)據(jù)污染——用于測(cè)試的例子同時(shí)也被包含在了模型的訓(xùn)練數(shù)據(jù)中。所以，即使測(cè)試結(jié)果變得更好了，也不能確認(rèn)這些大語(yǔ)言模型的數(shù)學(xué)推理能力真的提高了。

微調(diào)題庫(kù)，測(cè)試應(yīng)變能力

今年10月，蘋果公司發(fā)布的一項(xiàng)測(cè)評(píng)證實(shí)了這一質(zhì)疑的合理性。為避開GSM8K可能導(dǎo)致的數(shù)據(jù)污染，蘋果公司的研究人員想出了一個(gè)好辦法，他們給出了一個(gè)在GSM8K基礎(chǔ)上進(jìn)行微調(diào)的測(cè)試系統(tǒng)GSM-Symbolic。微調(diào)方式主要有3種：替換題目中的專有名詞；改變其中的數(shù)字；添加無(wú)關(guān)信息。

舉個(gè)例子，假設(shè)原題庫(kù)中的題目是這樣的：

小明周五釣了6條魚，周六釣了15條魚，周日釣到的魚是周五的2倍，問小明總共收獲了多少條魚？

GSM-Symbolic對(duì)這道題采取以下3種方式進(jìn)行微調(diào)：或是把原題中的小明換成小麗；或是把原題中6換成9，15換成23；或是增加一些無(wú)關(guān)信息，比如增加條件“周日釣到的魚中，有5條魚的重量低于平均值”。當(dāng)然，還可能把這幾種微調(diào)綜合在一起。基于這些微調(diào)，從GSM8K數(shù)據(jù)集中的題目出發(fā)，GSM-Symbolic可以千變?nèi)f化出更多題目來對(duì)大語(yǔ)言模型進(jìn)行評(píng)估。

從人類的視角來看，這些微調(diào)策略就是我們常說的“換湯不換藥”，做過小學(xué)數(shù)學(xué)題的讀者們?cè)偈煜げ贿^了。所謂“不換藥”，是說微調(diào)完全沒有涉及這些數(shù)學(xué)問題的邏輯結(jié)構(gòu)，只是調(diào)整了一些無(wú)關(guān)參數(shù)。

正確率大幅下滑

但正是這樣的微調(diào)，卻造成了大語(yǔ)言模型輸出答案正確率的大幅下滑。其中，無(wú)關(guān)信息的添加會(huì)導(dǎo)致所有最先進(jìn)的大語(yǔ)言模型的性能大幅下降，降幅高達(dá)65%。

蘋果公司的研究人員基于這些測(cè)評(píng)得出結(jié)論：大語(yǔ)言模型既不理解這些問題中的數(shù)學(xué)概念，也不能進(jìn)行邏輯推理，而僅僅是將面對(duì)的問題和訓(xùn)練數(shù)據(jù)中的問題進(jìn)行比較而已。

目前來看，大語(yǔ)言模型所得出的正確答案，主要體現(xiàn)了系統(tǒng)的記憶和匹配能力，這種應(yīng)答機(jī)制更像一種模式匹配，這與人類推理的機(jī)制完全不同，也沒有遵循邏輯。

人類才懂“萬(wàn)變不離其宗”

那么，人類在做小學(xué)數(shù)學(xué)推理題時(shí)，究竟啟用了哪些隱藏技能？

筆者理解至少有兩條，一是透過現(xiàn)象看本質(zhì)的能力：人類能夠抓取或識(shí)別表層語(yǔ)言背后的一般性運(yùn)算和推理的規(guī)律；二是由內(nèi)及外、活學(xué)活用的能力：人類能夠通過非關(guān)鍵因素（比如前面提到的3種微調(diào)因素）的替換和變化展開千變?nèi)f化的實(shí)際應(yīng)用。

這兩條綜合起來，就是我們常說的“萬(wàn)變不離其宗”。

（作者系中國(guó)科學(xué)院哲學(xué)研究所教授）

上一篇：內(nèi)蒙古：鄉(xiāng)村振興之路越走越堅(jiān)實(shí)

下一篇：中國(guó)式現(xiàn)代化對(duì)新時(shí)代新征程文藝高質(zhì)量發(fā)展的新要求

免费45分钟毛片_免费播放中国毛片在线_欧美yw193.c㎝在线观看_五月婷之综合在线

資訊中心

政府部門

行業(yè)協(xié)會(huì)

產(chǎn)業(yè)園區(qū)

企業(yè)單位

媒體機(jī)構(gòu)