日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

可協助 AI 語言模型改善自我糾錯能力,谷歌推出 BIG-Bench Mistake 數據集

來源: 責編: 時間:2024-01-18 17:31:32 301觀看
導讀 1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集,并利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。谷歌研究人員表

1 月 15 日消息,谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集,并利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。DWu28資訊網——每日最新資訊28at.com

DWu28資訊網——每日最新資訊28at.com

谷歌研究人員表示,由于過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數據集,因此他們創建了一項名為“BIG-Bench Mistake”的專用基準數據集用于評估測試。DWu28資訊網——每日最新資訊28at.com

據悉,研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了5項任務,之后將生成的“思維鏈(Chain-of-Thought)”軌跡修改加入“邏輯錯誤”部分,之后重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。DWu28資訊網——每日最新資訊28at.com

為了提升數據集準確程度,谷歌研究人員反復進行上述過程,最終形成了一項內含“255 項邏輯錯誤”的“BIG-Bench Mistake”專用基準數據集。DWu28資訊網——每日最新資訊28at.com

研究人員提到,由于“BIG-Bench Mistake”數據集中的邏輯錯誤較為“簡單明確”,因此可以作為一個良好的測試標準,可協助語言模型先從簡單的邏輯錯誤開始練習,逐步提升辨識錯誤的能力。DWu28資訊網——每日最新資訊28at.com

研究人員利用該數據集對市面上模型進行測試,發現雖然絕大多數語言模型可以識別在推理過程中出現的邏輯錯誤并進行自我修正,但這個過程“并不夠理想”,通常需要人工干預來糾正模型輸出的內容。DWu28資訊網——每日最新資訊28at.com

DWu28資訊網——每日最新資訊28at.com

▲ 圖源 谷歌研究院新聞稿

從報告中發現,谷歌聲稱“目前最先進的大語言模型”自我糾錯能力也相對有限,在相關測試結果中成績發揮最好的模型,也僅僅找出了 52.9% 的邏輯錯誤。DWu28資訊網——每日最新資訊28at.com

DWu28資訊網——每日最新資訊28at.com

谷歌研究人員同時聲稱,這一 BIG-Bench Mistake 數據集有利于改善模型自我糾錯能力,經過相關測試任務微調后的模型,“即便是小型模型表現也通常比零樣本提示的大模型更好”。DWu28資訊網——每日最新資訊28at.com

據此,谷歌認為在模型糾錯方面,可以使用專有小型模型“監督”大型模型,相對于讓大語言模型學會“糾正自我錯誤”,部署專用于監督大模型的小型專用模型有利于改善效率、降低相關AI 部署成本,并更便于微調。DWu28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-3236-0.html可協助 AI 語言模型改善自我糾錯能力,谷歌推出 BIG-Bench Mistake 數據集

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Meta 承認使用盜版書籍來訓練 AI,并拒絕賠償作家

下一篇: 英偉達從印度獲得巨額 AI 芯片訂單,價值達 5 億美元

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 原平市| 攀枝花市| 沐川县| 珲春市| 武川县| 健康| 丹阳市| 巴彦淖尔市| 龙南县| 东乡县| 礼泉县| 句容市| 常宁市| 台北县| 霍山县| 屏边| 平湖市| 德安县| 府谷县| 台北县| 吉木乃县| 新宾| 福建省| 灵璧县| 绥化市| 石家庄市| 彰武县| 南木林县| 理塘县| 琼海市| 松滋市| 桃江县| 文化| 鲜城| 南城县| 株洲县| 赤城县| 桐城市| 永善县| 新营市| 金平|