日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 網絡

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

來源: 責編: 時間:2024-08-13 16:50:45 133觀看
導讀 繼Devin之后,又一個AI軟件工程師被刷屏了——它叫Genie,號稱目前地表強,已經可以像人一樣思考和行動了!那么這個“地表強”,到底強到什么程度?先來看下評測分數。在權威榜單SWE-Bench中,Genie

繼Devin之后,又一個AI軟件工程師被刷屏了——YCi28資訊網——每日最新資訊28at.com

它叫Genie,號稱目前地表強,已經可以像人一樣思考和行動了!YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

那么這個“地表強”,到底強到什么程度?YCi28資訊網——每日最新資訊28at.com

先來看下評測分數。YCi28資訊網——每日最新資訊28at.com

在權威榜單SWE-Bench中,Genie以解決了30.07%問題的成績奪得榜首。YCi28資訊網——每日最新資訊28at.com

(SWE-Bench是一個用來評估大模型解決現實中軟件問題的基準。)YCi28資訊網——每日最新資訊28at.com

而這個成績可謂是遙遙領先第二名19.27%,解鎖了提升SOTA的大增幅——57%!YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

至于Genie的實際效果,用團隊的話來說就是:YCi28資訊網——每日最新資訊28at.com

它可以做到像人類工程師一樣解決現實生活中的軟件問題。YCi28資訊網——每日最新資訊28at.com

首先,你可以用4種方式讓Genie開始工作,分別是提示詞、GitHub Issue、Linear Ticket或者API。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

以解決GitHub Issue為例,先喂給Genie一個repo的鏈接,它就開始自動解析問題了:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

Genie會自動迭代思考如果想要解決這個問題它都需要哪些文件,直到它覺得找到了自己滿意的為止:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

緊接著,它將對問題做一個自動迭代分析的過程:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

然后Genie就開始“唰唰唰”地自動寫+跑代碼了:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

如果運行代碼過程中出現bug,Genie會只針對出問題的地方再重復分析、寫代碼和運行的過程,直至跑通為止。YCi28資訊網——每日最新資訊28at.com

而整個過程,僅僅耗時84秒!YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

用團隊的話來說:YCi28資訊網——每日最新資訊28at.com

Genie已經觀察并學習人類程序員如何解決軟件問題的次數達到了數百萬次。YCi28資訊網——每日最新資訊28at.com

這是任何一個人類程序員一輩子都無法達到的數量。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

但更令人意想不到的是,Genie背后的團隊——Cosine,才僅僅5人。YCi28資訊網——每日最新資訊28at.com

而且CEO Alistair還發文感謝OpenAI:YCi28資訊網——每日最新資訊28at.com

沒有你們,我們做不出來Genie。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

那么Cosine團隊,究竟是如何打造Genie的呢。YCi28資訊網——每日最新資訊28at.com

強AI工程師是如何煉成的?YCi28資訊網——每日最新資訊28at.com

Genie的主要特點,是能夠模仿人類工程師的認知過程、邏輯和工作流。YCi28資訊網——每日最新資訊28at.com

為做到這一點,Genie團隊透露過去一年收集了一個包含真實人類程序員開發活動的數據集。YCi28資訊網——每日最新資訊28at.com

其中不僅使用了成果分析、靜態分析、自我對弈、逐步驗證等方法,還用到了基于大量標記數據訓練的AI模型。好處是,當基礎模型能力提升時,它們能夠提取的數據質量也會相應提高。YCi28資訊網——每日最新資訊28at.com

終Genie使用該專有數據進行訓練。YCi28資訊網——每日最新資訊28at.com

數據集中編碼了人類推理的完整過程,包括完美的信息溯源、增量知識發現,還有基于軟件工程師實際工作案例的逐步決策過程。YCi28資訊網——每日最新資訊28at.com

Genie的推理過程包括規劃、檢索、代碼編寫和代碼運行四個主要步驟,突破了其它AI工程師依靠在基礎模型之上添加網頁瀏覽器、代碼解釋器等額外工具的限制,能夠像人一樣處理多樣化的、高度情境的、前所未見的問題。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

這種訓練方法,讓網友們立刻想到,之前Karpathy也提出的類似想法:YCi28資訊網——每日最新資訊28at.com

對于LLM來說,理想的訓練數據并不是你所寫的內容本身,而是你在寫作過程中的完整思考過程和每一個編輯動作。然而,我們只能盡力利用現有的資源。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

除此之外,Genie訓練中還引入了自我改進機制。YCi28資訊網——每日最新資訊28at.com

初始訓練數據多為可正常運行的沒有錯誤的代碼,導致Genie導致難以應對錯誤情況。為解決這個問題,團隊使用初代版本的Genie生成包含錯誤的合成數據,然后用這些數據訓練下一版模型。YCi28資訊網——每日最新資訊28at.com

具體來說,使用舊版本Genie提出解決方案,如果解決方案錯誤,就利用掌握的任務終狀態來教它從當前狀態達到正確狀態。YCi28資訊網——每日最新資訊28at.com

不斷重復這一過程,Genie提出的初始解決方案逐漸變得更準確,在多數情況下能直接給出正確答案,即使出錯也只需在數據集中作較少的修正。YCi28資訊網——每日最新資訊28at.com

Genie能力提升的另一大關鍵,在于OpenAI提供的大模型支持。YCi28資訊網——每日最新資訊28at.com

團隊表示,初開發Genie時,只能訪問微調16-32k范圍內的短上下文模型,他們用這些模型進行了大量早期開發,用超1億token的數據訓練模型,雖然發現設計的架構有一定優勢,但從根本上受限于模型在特定時間內可以處理的信息量。YCi28資訊網——每日最新資訊28at.com

嘗試了各種壓縮/分塊方法后,唯一的解決方法就是使用更大上下文的模型。YCi28資訊網——每日最新資訊28at.com

OpenAI提供了長上下文模型支持,新版本的Genie經過了數十億token的數據訓練。YCi28資訊網——每日最新資訊28at.com

團隊認為,相比超參數調整和數據量,數據的質量才是關鍵。因此他們還在數據混合方面進行了大量實驗,包括語言、任務類型、任務長度等多個維度,以下是訓練Genie的不同編程語言數據的占比:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

還有不同類型實例的數據占比:YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

只有5個人的團隊YCi28資訊網——每日最新資訊28at.com

正如我們在上文提到的,Cosine這個初創團隊人數目前僅僅為5人。YCi28資訊網——每日最新資訊28at.com

在官網的介紹中,他們也非常直接的將自己形容為:YCi28資訊網——每日最新資訊28at.com

Small but mighty.雖小但有力。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

從介紹來看,成員有的是從獨角獸企業出身,有的擁有管理全球團隊的經驗,甚至還有從8歲就開始編程的。YCi28資訊網——每日最新資訊28at.com

但Cosine初成立之際是僅有3人,他們的目標是想把人類推理這件事兒給搞明白。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

值得一提的是,團隊成員中還有一位是華人,Yang Li,是Cosine的聯合創始人,在2021年登上過福布斯30 under 30。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

除此之外,對于Genie本身,CEO Alistair還表示:YCi28資訊網——每日最新資訊28at.com

早在2022年我們就開始構想Genie了,但當時從技術角度來說是不可行的。YCi28資訊網——每日最新資訊28at.com

直到過去半年多來,隨著大模型的逐步成熟,Genie才能走入現實。YCi28資訊網——每日最新資訊28at.com

強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考YCi28資訊網——每日最新資訊28at.com

嗯,不得不說,大模型又立功了。YCi28資訊網——每日最新資訊28at.com

Genie目前是可以申請Waitlist了,感興趣的小伙伴可以戳文末鏈接~YCi28資訊網——每日最新資訊28at.com

Waitlist地址:https://cosine.sh/registerYCi28資訊網——每日最新資訊28at.com

參考鏈接:[1]https://x.com/alistairpullen/status/1822981361608888619?s=46[2]https://cosine.sh/blog/genie-technical-report[3]https://cosine.sh/blog/state-of-the-art[4]https://x.com/AlistairPullen/status/1823030874579120223[5]https://x.com/yangli_YCi28資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-17-107663-0.html強AI程序員砸飯碗:84秒跑通代碼 像人一樣思考

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 美國前總統直播時給iPhone用的充電寶亮了:來自中國品牌!

下一篇: 唐尚珺放下清華執念上大學:曾經的夢想到大學再去追逐

標簽:
  • 熱門焦點
  • 一加Ace2 Pro官宣:普及16G內存 引領24G

    一加官方今天繼續為本月發布的新機一加Ace2 Pro帶來預熱,公布了內存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引領,還有呢?#一加Ace2Pro#,2023 年 8 月,敬請期待。”同時
  • 小米平板5 Pro 12.4簡評:多專多能 兼顧影音娛樂的大屏利器

    疫情帶來了網課,網課盤活了安卓平板,安卓平板市場雖然中途停滯了幾年,但好的一點就是停滯的這幾年行業又有了新的發展方向,例如超窄邊框、高刷新率、多攝鏡頭組合等,這就讓安卓
  • 三言兩語說透設計模式的藝術-簡單工廠模式

    一、寫在前面工廠模式是最常見的一種創建型設計模式,通常說的工廠模式指的是工廠方法模式,是使用頻率最高的工廠模式。簡單工廠模式又稱為靜態工廠方法模式,不屬于GoF 23種設計
  • 一年經驗在二線城市面試后端的經驗分享

    忠告這篇文章只適合2年內工作經驗、甚至沒有工作經驗的朋友閱讀。如果你是2年以上工作經驗,請果斷劃走,對你沒啥幫助~主人公這篇文章內容來自 「升職加薪」星球星友 的投稿,坐
  • Java NIO內存映射文件:提高文件讀寫效率的優秀實踐!

    Java的NIO庫提供了內存映射文件的支持,它可以將文件映射到內存中,從而可以更快地讀取和寫入文件數據。本文將對Java內存映射文件進行詳細的介紹和演示。內存映射文件概述內存
  • 得物效率前端微應用推進過程與思考

    一、背景效率工程隨著業務的發展,組織規模的擴大,越來越多的企業開始意識到協作效率對于企業團隊的重要性,甚至是決定其在某個行業競爭中突圍的關鍵,是企業長久生存的根本。得物
  • 三萬字盤點 Spring 九大核心基礎功能

    大家好,我是三友~~今天來跟大家聊一聊Spring的9大核心基礎功能。話不多說,先上目錄:圖片友情提示,本文過長,建議收藏,嘿嘿嘿!一、資源管理資源管理是Spring的一個核心的基礎功能,不
  • iQOO 11S評測:行業唯一的200W標準版旗艦

    【Techweb評測】去年底,iQOO推出了“電競旗艦”iQOO 11系列,作為一款性能強機,該機不僅全球首發2K 144Hz E6全感屏,搭載了第二代驍龍8平臺及144Hz電競
  • 電博會與軟博會實現"線下+云端"的雙線融合

    在本次“電博會”與“軟博會”雙展會利好條件的加持下,既可以發揮展會拉動人流、信息流、資金流實現快速交互流動的作用,繼而推動區域經濟良性發展;又可以聚
Top 主站蜘蛛池模板: 辽宁省| 威海市| 闽清县| 木里| 高安市| 屯留县| 交口县| 客服| 遵义市| 腾冲县| 大竹县| 双流县| 蓝山县| 张北县| 大荔县| 龙泉市| 扎囊县| 灌南县| 新龙县| 广德县| 西畴县| 大港区| 凤台县| 桐梓县| 郴州市| 梁河县| 仁布县| 宜川县| 水富县| 平舆县| 监利县| 台山市| 邓州市| 翁源县| 紫金县| 美姑县| 佛山市| 曲水县| 洞头县| 浦东新区| 永定县|