日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 網絡

數據標注員什么時候會被AI替代?谷歌:現在就行

來源: 責編: 時間:2023-09-11 22:31:26 324觀看
導讀 似乎自ChatGPT進入大眾視野起,需要依靠人工進行數據標注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。從兩個以上大模型針對同一個問題給出的不同回答里,找到當中的語病、邏輯和事實錯誤,標記不同的錯誤類型

似乎自ChatGPT進入大眾視野起,需要依靠人工進行數據標注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。NgU28資訊網——每日最新資訊28at.com

從兩個以上大模型針對同一個問題給出的不同回答里,找到當中的語病、邏輯和事實錯誤,標記不同的錯誤類型,再對這些回答按照質量分別進行打分等,這些都是大模型數據標注員要干的事情。NgU28資訊網——每日最新資訊28at.com

這個過程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強化學習。RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓練方法,它大的好處就在于能夠將模型和人類的偏好對齊,讓大模型給出更符合人類表達習慣的回答。NgU28資訊網——每日最新資訊28at.com

不過近發布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代!NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

AI也取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓練方法。NgU28資訊網——每日最新資訊28at.com

這份由谷歌研究團隊發布的論文顯示,RLAIF能夠在不依賴數據標注員的情況下,表現出能夠與RLHF相媲美的訓練結果——NgU28資訊網——每日最新資訊28at.com

如果拿傳統的監督微調(SFT)訓練方法作為基線比較,比起SFT,1200個真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

這里的“勝率”體現了文中的“滿意度”NgU28資訊網——每日最新資訊28at.com

需要說明的是,谷歌的這篇論文也是第一個證明了RLAIF在某些任務上能夠產生與RLHF相當的訓練效果的研究。NgU28資訊網——每日最新資訊28at.com

早提出讓AI反饋代替人類反饋用于強化學習訓練的研究,是來自2022年Bai et al. 發布的一篇論文。這篇論文也首次提出了RLAIF的概念,并發現了AI標注的“天賦”,不過研究者在當時還并沒有將人類反饋和AI反饋結果進行直接比較。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

總之谷歌的這一研究成果一旦被更多人接受,將意味著不用人類指點,AI也能訓練自己的同類了。NgU28資訊網——每日最新資訊28at.com

下面可以來看看RLAIF具體是怎么做的。NgU28資訊網——每日最新資訊28at.com

我們知道,RLHF的方法大致可以分為三個步驟:預訓練一個監督微調LLM,收集數據訓練一個獎勵模型(RM),以及用強化學習(RL)方式微調模型。NgU28資訊網——每日最新資訊28at.com

從論文給出的圖示看,AI和人類標注員發揮作用的環節,主要是在訓練獎勵模型(RM)并生成反饋內容這里。你可以把“獎勵”理解為,讓人/AI來告訴模型哪種回答更好,答得更好就能有更多獎勵(所以也能理解人工標注存在的必要)。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

接著研究人員主要就“根據一段文字生成摘要”這一任務,展示了RLAIF的標記方法。NgU28資訊網——每日最新資訊28at.com

下面的表格比較完整地展示了RLAIF方法的輸入結構:NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

首先是序言(Preamble),用來介紹和描述手頭任務的說明。比如描述說,好的摘要是一段較短的文字,具有原文的精髓…給定一段文本和兩個可能的摘要,輸出1或2來指示哪個摘要符合上述定義的連貫性、準確性、覆蓋范圍和整體質量。NgU28資訊網——每日最新資訊28at.com

其次是樣本示例(1-Shot Exemplar)。比如給到一段“我們曾是超過四年的好朋友……”的文本,接著給到兩個摘要,以及“摘要1更好”的偏好判斷,讓AI學著這個示例對接下來的樣本做標注。NgU28資訊網——每日最新資訊28at.com

再者就是給出所要標注的樣本(Sample to Annotate),包括一段文本和一對需要標記的摘要。NgU28資訊網——每日最新資訊28at.com

后是結尾,用于提示模型的結束字符串。NgU28資訊網——每日最新資訊28at.com

論文介紹到,為了讓RLAIF方法中AI標注更準確,研究者也加入了其他方法以獲取更好的回答。譬如為了避免隨機性問題,會進行多次選擇,其間還會對選項的順序進行交換;此外還用到了思維鏈(CoT)推理,來進一步提升與人類偏好的對齊程度。NgU28資訊網——每日最新資訊28at.com

從原始prompt到輸出的完整流程如下圖所示:NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

能看到,就像人類標注員會給不同的回答打分一樣(比如滿分5分),AI也會依據偏好給每個摘要打分,相加起來是1分。所以這個分數就可以理解為上文提到的獎勵。NgU28資訊網——每日最新資訊28at.com

以上就是RLAIF方法大致會經歷的過程。NgU28資訊網——每日最新資訊28at.com

而在評價RLAIF方法的訓練結果到底好不好時,研究人員使用了三個評估指標,分別是AI標簽對齊度(AI Labeler Alignment)、配對準確度(Pairwise Accuracy)和勝率(Win Rate)。NgU28資訊網——每日最新資訊28at.com

簡單理解三個指標,AI標簽對齊度指的就是AI偏好相對于人類偏好的精確程度,配對準確度指訓練好的獎勵模型與人類偏好數據集的匹配程度,勝率則是人類在RLAIF和RLHF生成結果之間的傾向性。NgU28資訊網——每日最新資訊28at.com

研究人員在依據評估指標進行了繁雜的計算之后,終得出了RLAIF和RLHF“打平手”的結論。NgU28資訊網——每日最新資訊28at.com

當然也有一些非量化的定性分析。譬如研究發現,RLAIF似乎比RLHF更不容易出現“幻覺”,下表所示幾個例子中標紅部分便是RLHF的幻覺,盡管看上去是合理的:NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

而在另一些例子里,RLAIF的語法表現似乎又比RLHF差不少(標紅為RLAIF的語法問題):NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

盡管如此,RLAIF和RLHF整體來說生成高質量摘要的能力還是旗鼓相當的。NgU28資訊網——每日最新資訊28at.com

該論文的發布很快收獲了不少關注。比如有從業者評論道,等到GPT-5可能就不需要人類數據標注員了。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

也有網友貼圖打趣,用AI來訓練同類的做法就好比是這張梗圖。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

不過針對谷歌這篇論文中用到的研究方法,身為著名軟件工程師、AI專家的Evan Saravia也認為,研究人員只在論文中分析了RLAIF和RLHF在“生成摘要”這一任務上的表現,其他更加泛化的任務表現如何還有待觀察。NgU28資訊網——每日最新資訊28at.com

此外,研究人員也沒有將人工標注和使用AI成本的因素考慮在內。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

其實以上網友預測未來的大模型將不再需要人類標注員,也側面體現出目前RLHF方法因為過于依賴人工而遇到的瓶頸:大規模高質量的人類標注數據可能會非常難以獲取——NgU28資訊網——每日最新資訊28at.com

大模型數據標注員往往是流動性非常高的工種,并且由于數據標注很多時候非常依賴標注員的主觀偏好,也就更加考驗標注員的自身素質。NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com

短期內也許會像這位從業者說的,“我不會說這(RLAIF)降低了人工標注的重要性,但有一點可以肯定,人工智能反饋的RL可以降低成本。人工標注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。”NgU28資訊網——每日最新資訊28at.com

數據標注員什么時候會被AI替代?谷歌:現在就行NgU28資訊網——每日最新資訊28at.com


文章出處:品玩網

本文鏈接:http://www.www897cc.com/showinfo-17-9219-0.html數據標注員什么時候會被AI替代?谷歌:現在就行

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 網約車老師傅們的“反擊”

下一篇: 搶“.AI”域名 成了3000萬美元的大生意

標簽:
  • 熱門焦點
  • K60 Pro官方停產 第三方瞬間漲價

    雖然沒有官方宣布,但Redmi的一些高管也已經透露了,Redmi K60 Pro已經停產且不會補貨,這一切都是為了即將到來的K60 Ultra鋪路,屬于廠家的正常操作。但有意思的是該機在停產之后
  • 線程通訊的三種方法!通俗易懂

    線程通信是指多個線程之間通過某種機制進行協調和交互,例如,線程等待和通知機制就是線程通訊的主要手段之一。 在 Java 中,線程等待和通知的實現手段有以下幾種方式:Object 類下
  • 企業采用CRM系統的11個好處

    客戶關系管理(CRM)軟件可以為企業提供很多的好處,從客戶保留到提高生產力。  CRM軟件用于企業收集客戶互動,以改善客戶體驗和滿意度。  CRM軟件市場規模如今超過580
  • 多線程開發帶來的問題與解決方法

    使用多線程主要會帶來以下幾個問題:(一)線程安全問題  線程安全問題指的是在某一線程從開始訪問到結束訪問某一數據期間,該數據被其他的線程所修改,那么對于當前線程而言,該線程
  • 這款新興工具平臺,讓你的電腦效率翻倍

    隨著信息技術的發展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應運而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
  • 蘋果、三星、惠普等暫停向印度出口筆記本和平板電腦

    集微網消息,據彭博社報道,在8月3日印度突然禁止在沒有許可證的情況下向印度進口電腦/平板及顯示器等產品后,蘋果、三星電子和惠普等大公司暫停向印度
  • DRAM存儲器10月價格下跌,NAND閃存本月價格與上月持平

    10月30日,據韓國媒體消息,自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10%,此次是全年首次降價,而NAND 閃存本月價格與上月持平。市
  • 微軟發布Windows 11新版 引入全新任務欄狀態

    近日,微軟發布了Windows 11新版,而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等,系統更流暢了。更新中,Windows 11加入了專門針對平板優化的任務欄
  • 最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

    2022年1月份在國際消費電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現在已經可以購買了,這款筆記本電腦被譽為世界上最薄的 14 英寸游戲筆
Top 主站蜘蛛池模板: 饶阳县| 湘潭县| 凤台县| 葵青区| 吴旗县| 武威市| 凌云县| 台州市| 钟祥市| 务川| 华阴市| 海兴县| 平定县| 佳木斯市| 敦煌市| 平江县| 嘉禾县| 永和县| 大英县| 栖霞市| 阳山县| 武宣县| 宜良县| 武冈市| 黎城县| 平原县| 普定县| 永安市| 资源县| 泸水县| 永胜县| 华亭县| 聊城市| 新乡县| 铜陵市| 白水县| 长海县| 武鸣县| 临西县| 阿拉善右旗| 汉源县|