日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 知識(shí)百科

用自洽性提升大模型推理能力,谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題,比GPT-3提升20%

來源: 責(zé)編: 時(shí)間:2023-08-07 16:30:09 288觀看
導(dǎo)讀 盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴(kuò)大模型規(guī)模不能解決這個(gè)問題?;诖耍琖ei et al. (2022) 提出了思維提示鏈(chain of though

盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴(kuò)大模型規(guī)模不能解決這個(gè)問題?;诖?,Wei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語言模型生成一系列短句,這些短句模仿一個(gè)人在解決推理任務(wù)時(shí)可能采用的推理過程。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在來自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,它顯著提高了大型語言模型的推理準(zhǔn)確率。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/pdf/2203.11171.pdfeJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

該論文的作者之一、Google Brain 的創(chuàng)始成員 Quoc Le 今天在推特上發(fā)文表示:這種自洽方法能夠解決 GSM8K 基準(zhǔn)中 75% 的數(shù)學(xué)問題,大幅超越現(xiàn)有方法。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

圖源:https://twitter.com/quocleix/status/1513632492124663808eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

簡單來說,復(fù)雜的推理任務(wù)通常有多個(gè)能得到正確答案的推理路徑,自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

該方法在一系列算術(shù)和常識(shí)推理基準(zhǔn)上評估自洽性,可以穩(wěn)健地提高各種語言模型的準(zhǔn)確性,而無需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語言模型 PaLM-540B 結(jié)合使用時(shí),自洽方法將多個(gè)基準(zhǔn)推理任務(wù)的性能提高到 SOTA 水平。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

該方法是完全無監(jiān)督的,預(yù)訓(xùn)練語言模型直接可用,不需要額外的人工注釋,也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

該研究在三種大型語言模型上評估一系列算術(shù)推理和常識(shí)推理任務(wù)的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn),對于這幾種規(guī)模不同的語言模型,自洽方法都能顯著提高其推理能力。與通過貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助于在所有推理任務(wù)中顯著提高準(zhǔn)確性,如下圖 2 所示。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

多樣化推理路徑上的自洽eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

人類的一個(gè)突出特征是思維方式不同。人們會(huì)很自然地假設(shè),在需要深思熟慮的任務(wù)中,可能有幾種解決方法,所有這些方法都會(huì)得出相同的正確答案。因此,研究者建議可以通過從語言模型解碼器采樣以在語言模型中模擬這一過程。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

如下表 1 所示,一個(gè)模型可以為一個(gè)數(shù)學(xué)問題生成多個(gè)可能的回答,這些回答最終得出相同的正確答案(如輸出 2、4 和 5)。由于語言模型不是完美的推理器,模型也可能產(chǎn)生錯(cuò)誤的推理路徑或者在某一個(gè)推理步驟中出錯(cuò)(例如輸出 1 和 3 中),這種解決方案不太可能得出相同的答案( 表 1 中的 26 和 14)。 eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

也就是說,當(dāng)假設(shè)推理過程正確,即使它們是多樣化的,在最終答案中往往比不正確的推理過程具有更高的一致性。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

研究者提出通過一種自洽(self-consistency)方法來利用這種直覺。具體步驟如下:eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

首先,使用一組手動(dòng)編寫的思維鏈?zhǔn)纠龑φZ言模型進(jìn)行提示;接著,從語言模型的解碼器中采樣一組候選輸出,生成一組不同的候選推理路徑;最后,通過在生成的答案中選擇最自洽的答案來集成結(jié)果。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

在實(shí)驗(yàn)調(diào)查中,研究者發(fā)現(xiàn)思維鏈提示與相結(jié)合,會(huì)比單獨(dú)使用僅考慮單一生成路徑的思維鏈產(chǎn)生好得多的結(jié)果。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

研究者進(jìn)行了一系列實(shí)驗(yàn),以在不同的算術(shù)和常識(shí)推理基準(zhǔn)上將提出的自洽方法與現(xiàn)有方法進(jìn)行比較。結(jié)果發(fā)現(xiàn),該方法極大地提高了每種語言模型的推理準(zhǔn)確性,涵蓋了廣泛的模型尺度。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

具體地,他們評估了不同推理路徑上的自洽性,即自洽性(多路徑)(Multipath)。結(jié)果取 10 次運(yùn)行的平均值,在每次運(yùn)行中獨(dú)立于解碼器對 40 個(gè)輸出進(jìn)行采樣。比較的基線是貪心解碼單個(gè)思想鏈,稱為貪心解碼(Single-path),之前已被用于大型語言模型中的解碼。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

算術(shù)推理結(jié)果如下表 2 所示。對于 LaMDA-137B,自洽性策略在每個(gè)任務(wù)上較貪心解碼(Single-path)均實(shí)現(xiàn)了顯著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任務(wù)上獲得接近 10% 絕對準(zhǔn)確率提升,在 MultiArith 和 SVAMP 任務(wù)上分別提升了 23.9% 和 14.4%。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

對于更大的 PaLM540B 模型,自洽性策略顯著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上實(shí)現(xiàn)了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

常識(shí)推理結(jié)果如下表 3 所示。對于 LaMDA-137B 模型,自洽性策略顯著提升所有任務(wù)的準(zhǔn)確率,其中 StrategyQA 和 CommonsenseQA 的絕對準(zhǔn)確率提升了 2%-5%,ARC easy set 和 ARC challenge set 的絕對準(zhǔn)確率分別提升了 4.0% 和 4.7%。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

同樣地,更大的 PaLM540B 模型也實(shí)現(xiàn)了持續(xù)收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

下圖 3 中通過對來自解碼器的不同數(shù)量的推理路徑進(jìn)行采樣,展示了自洽性與貪心解碼(Single-path)的性能比較??梢钥吹?,采樣更多數(shù)量(如 40 個(gè))的推理路徑始終會(huì)產(chǎn)生更好的性能,再次強(qiáng)調(diào)了在推理路徑中引入多樣性的重要性。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

該研究將自洽方法和基于集成的方法進(jìn)行小樣本學(xué)習(xí)來比較二者的性能。結(jié)果如下表 5 所示,與自洽方法相比,基于集成的方法獲得的增益要小得多。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

另一種提高生成質(zhì)量的常用方法是采樣排序(sample-and-rank),其中從解碼器中采樣多個(gè)序列,然后根據(jù)每個(gè)序列的對數(shù)概率或基于額外訓(xùn)練的重排序器進(jìn)行排序。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

該研究使用 GPT-3 模型得到了如下圖 4 所示的結(jié)果。雖然采樣排序方法通過額外的采樣序列和排序提高了準(zhǔn)確性,但與自洽方法相比,增益要小得多。eJf28資訊網(wǎng)——每日最新資訊28at.com

 eJf28資訊網(wǎng)——每日最新資訊28at.com

eJf28資訊網(wǎng)——每日最新資訊28at.com

更多細(xì)節(jié)內(nèi)容請參閱論文原文。eJf28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-119-2270-0.html用自洽性提升大模型推理能力,谷歌解答基準(zhǔn)中75%數(shù)學(xué)問題,比GPT-3提升20%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 飛機(jī)“黑匣子”數(shù)據(jù)緣何上云難?

下一篇: 裁員、收縮、過冬,云計(jì)算怎么了?

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 轎車從天而降電動(dòng)車主被撞身亡 超速搶道所致:現(xiàn)場視頻讓網(wǎng)友吵翻

    近日,上海青浦區(qū)法院判決轎車從天而降電動(dòng)車主被撞身亡案,轎車車主被判有期徒刑一年。案件顯示當(dāng)時(shí)男子駕駛轎車在上海某路段行駛,前車忽然轉(zhuǎn)彎提速超車,
  • Golang 中的 io 包詳解:組合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是對Reader和Writer接口的組合,
  • K8S | Service服務(wù)發(fā)現(xiàn)

    一、背景在微服務(wù)架構(gòu)中,這里以開發(fā)環(huán)境「Dev」為基礎(chǔ)來描述,在K8S集群中通常會(huì)開放:路由網(wǎng)關(guān)、注冊中心、配置中心等相關(guān)服務(wù),可以被集群外部訪問;圖片對于測試「Tes」環(huán)境或者
  • 得物效率前端微應(yīng)用推進(jìn)過程與思考

    一、背景效率工程隨著業(yè)務(wù)的發(fā)展,組織規(guī)模的擴(kuò)大,越來越多的企業(yè)開始意識(shí)到協(xié)作效率對于企業(yè)團(tuán)隊(duì)的重要性,甚至是決定其在某個(gè)行業(yè)競爭中突圍的關(guān)鍵,是企業(yè)長久生存的根本。得物
  • 只需五步,使用start.spring.io快速入門Spring編程

    步驟1打開https://start.spring.io/,按照屏幕截圖中的內(nèi)容創(chuàng)建項(xiàng)目,添加 Spring Web 依賴項(xiàng),并單擊“生成”按鈕下載 .zip 文件,為下一步做準(zhǔn)備。請?jiān)谶M(jìn)入步驟2之前進(jìn)行解壓。圖
  • 慕巖炮轟抖音,百合網(wǎng)今何在?

    來源:價(jià)值研究所 作者:Hernanderz“難道就因?yàn)樽约旱囊粋€(gè)產(chǎn)品牛逼了,從客服到總裁,都不愿意正視自己產(chǎn)品和運(yùn)營上的問題,選擇逃避了嗎?”這一番話,出自百合網(wǎng)聯(lián)合創(chuàng)
  • 自律,給不了Keep自由!

    來源 | 互聯(lián)網(wǎng)品牌官作者 | 李大為編排 | 又耳 審核 | 谷曉輝自律能不能給用戶自由暫時(shí)不好說,但大概率不能給Keep自由。近日,全球最大的在線健身平臺(tái)Keep正式登陸港交所,努力
  • 三星電子Q2營收60萬億韓元 存儲(chǔ)業(yè)務(wù)營收同比仍下滑超過50%

    7月27日消息,據(jù)外媒報(bào)道,從三星電子所發(fā)布的財(cái)報(bào)來看,他們主要利潤來源的存儲(chǔ)芯片業(yè)務(wù)在今年二季度仍不樂觀,營收同比仍在大幅下滑,所在的設(shè)備解決方案
  • 質(zhì)感不錯(cuò)!OPPO K11渲染圖曝光:旗艦IMX890傳感器首次下放

    一直以來,OPPO K系列機(jī)型都保持著較為均衡的產(chǎn)品體驗(yàn),歷來都是2K價(jià)位的明星機(jī)型,去年推出的OPPO K10和OPPO K10 Pro兩款機(jī)型憑借各自的出色配置,堪稱有
Top 主站蜘蛛池模板: 宁城县| 咸宁市| 保定市| 兴隆县| 南岸区| 平南县| 泽普县| 和硕县| 寿光市| 宁乡县| 宁武县| 石渠县| 佛坪县| 龙海市| 蕲春县| 陇西县| 二手房| 福鼎市| 高唐县| 白玉县| 夏邑县| 永川市| 富川| 元朗区| 古交市| 微山县| 莱西市| 金寨县| 邢台市| 武邑县| 藁城市| 岢岚县| 革吉县| 襄城县| 闽清县| 赫章县| 新建县| 德昌县| 鲁山县| 兴业县| 攀枝花市|