日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 網(wǎng)絡(luò)

阿里剛開源32B大模型:我們立馬測試了“弱智吧”

來源: 責(zé)編: 時間:2024-04-08 08:58:40 228觀看
導(dǎo)讀 阿里的通義千問(Qwen),終于拼齊了1.5系列的后一塊拼圖——正式開源Qwen 1.5-32B。話不多說,直接來看“成績單”。這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen

阿里的通義千問(Qwen),終于拼齊了1.5系列的后一塊拼圖——Z2I28資訊網(wǎng)——每日最新資訊28at.com

正式開源Qwen 1.5-32B。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

話不多說,直接來看“成績單”。Z2I28資訊網(wǎng)——每日最新資訊28at.com

這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。Z2I28資訊網(wǎng)——每日最新資訊28at.com

從結(jié)果上來看,Qwen 1.5-32B已經(jīng)在多項評測標準中超越或追平Mixtral 8x7B:Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

并且即便是在與自家更大參數(shù)模型PK過程中,Qwen 1.5-32B也用“以小博大”的姿勢展現(xiàn)出了較好的性能。Z2I28資訊網(wǎng)——每日最新資訊28at.com

用通義千問團隊成員的話來說就是:Z2I28資訊網(wǎng)——每日最新資訊28at.com

這個模型顯示出了與72B模型相當(dāng)?shù)男阅埽貏e是在語言理解、多語言支持、編碼和數(shù)學(xué)能力等方面。Z2I28資訊網(wǎng)——每日最新資訊28at.com

在推理和部署過程中,成本還會更加友好。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

不僅如此,即便是再拉來其它體量相當(dāng)?shù)拇竽P?ldquo;選手”,Qwen 1.5-32B在多項評測中的成績依舊較為亮眼:Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

除此之外,團隊還做了一項比較有意思的測試——長文本評估任務(wù),“大海撈針”。Z2I28資訊網(wǎng)——每日最新資訊28at.com

簡單來說,這項任務(wù)就是將一個與文本無關(guān)的句子(“針”)隱藏在大量的文本(“大海”)中,然后通過自然語言提問的方式,觀察AI能否準確提取出這個隱藏的句子。Z2I28資訊網(wǎng)——每日最新資訊28at.com

從結(jié)果上來看,Qwen 1.5-32B在32k tokens的上下文中性能表現(xiàn)良好。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

不過有一說一,剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?Z2I28資訊網(wǎng)——每日最新資訊28at.com

大戰(zhàn)一波“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”。Z2I28資訊網(wǎng)——每日最新資訊28at.com

(“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū)。)Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

而且就在前幾天,“弱智吧”還登上正經(jīng)AI論文,成了好的中文訓(xùn)練數(shù)據(jù),引發(fā)了一波不小的熱議。Z2I28資訊網(wǎng)——每日最新資訊28at.com

這項研究正是來自中科院深圳先進技術(shù)研究院、中科院自動化研究所,滑鐵盧大學(xué)等眾多高校、研究機構(gòu)聯(lián)合團隊。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

剛好此次Qwen 1.5-32B在開源的同時,也一并放出了在線體驗的demo,那么當(dāng)它倆碰到一起,會擦出怎樣的火花?Z2I28資訊網(wǎng)——每日最新資訊28at.com

請聽第一題:Z2I28資訊網(wǎng)——每日最新資訊28at.com

我爸媽結(jié)婚為什么不邀請我?Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

Qwen 1.5-32B很準確地回答出了“你的父母在結(jié)婚時你尚未出生,因此他們無法邀請你參加他們的婚禮”。Z2I28資訊網(wǎng)——每日最新資訊28at.com

繼續(xù)第二題:Z2I28資訊網(wǎng)——每日最新資訊28at.com

為什么睡覺過夜的地方叫酒店,喝酒的地方叫夜店?Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

面對這道很經(jīng)典的問題,Qwen 1.5-32B也能做到追根溯源地做正經(jīng)科普。Z2I28資訊網(wǎng)——每日最新資訊28at.com

再來第三道和第四道:Z2I28資訊網(wǎng)——每日最新資訊28at.com

高中如果想提高升學(xué)率,為什么不直接招大學(xué)生?Z2I28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)吧能上網(wǎng),弱智吧為什么不能上弱智?Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

不難看出,Qwen 1.5-32B都能夠給出準確的答案。Z2I28資訊網(wǎng)——每日最新資訊28at.com

尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:Z2I28資訊網(wǎng)——每日最新資訊28at.com

問題似乎不太恰當(dāng)或者存在誤解。Z2I28資訊網(wǎng)——每日最新資訊28at.com

嗯,Qwen 1.5-32B是一個經(jīng)住了“弱智吧Benchmark”的大模型。Z2I28資訊網(wǎng)——每日最新資訊28at.com

至于其它關(guān)于常識、數(shù)學(xué)、編程等能力的效果,家人們可以親自去體驗一番了。Z2I28資訊網(wǎng)——每日最新資訊28at.com

如何做到的?Z2I28資訊網(wǎng)——每日最新資訊28at.com

正如我們剛才所述,Qwen 1.5-32B在技術(shù)架構(gòu)上與此前版本并無太大的區(qū)別,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術(shù)。Z2I28資訊網(wǎng)——每日最新資訊28at.com

這也正是它能夠在相對較小的體量之下,能夠做到性能較優(yōu)且快速部署的關(guān)鍵。Z2I28資訊網(wǎng)——每日最新資訊28at.com

GQA是一種在自然語言處理中使用的 Transformer 架構(gòu)中的一種機制,它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。Z2I28資訊網(wǎng)——每日最新資訊28at.com

這種方法可以有效地減少計算復(fù)雜度,同時保留 Transformer 模型的表示能力。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com

具體而言,GQA是通過將查詢分組并在組內(nèi)計算它們的注意力,來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質(zhì)量。Z2I28資訊網(wǎng)——每日最新資訊28at.com

GQA 通過將查詢頭分為組,每個組共享單個鍵頭和值頭,來實現(xiàn)這一點,從而在質(zhì)量和速度之間取得平衡。Z2I28資訊網(wǎng)——每日最新資訊28at.com

如此一來,GQA的引入就降低了注意力計算的數(shù)量,從而加速了推理時間。Z2I28資訊網(wǎng)——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Z2I28資訊網(wǎng)——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-17-81817-0.html阿里剛開源32B大模型:我們立馬測試了“弱智吧”

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 年入535億 京東健康被疑自己研發(fā)藥品:官方回應(yīng)

下一篇: 谷歌搜索史上大變革!考慮對AI搜索收費

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 聂荣县| 万载县| 平罗县| 龙口市| 珠海市| 丹巴县| 专栏| 子洲县| 海兴县| 丁青县| 花莲市| 大余县| 遂川县| 仲巴县| 文山县| 七台河市| 榆林市| 曲阳县| 黄陵县| 凉山| 河间市| 四子王旗| 洛浦县| 安化县| 南阳市| 香格里拉县| 龙口市| 苏州市| 米林县| 泊头市| 凌海市| 拉孜县| 洪江市| 保康县| 台北市| 虞城县| 二连浩特市| 高安市| 嘉祥县| 青州市| 石林|