日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 網絡

阿里剛開源32B大模型:我們立馬測試了“弱智吧”

來源: 責編: 時間:2024-04-08 08:58:40 190觀看
導讀 阿里的通義千問(Qwen),終于拼齊了1.5系列的后一塊拼圖——正式開源Qwen 1.5-32B。話不多說,直接來看“成績單”。這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen

阿里的通義千問(Qwen),終于拼齊了1.5系列的后一塊拼圖——Uf228資訊網——每日最新資訊28at.com

正式開源Qwen 1.5-32B。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

話不多說,直接來看“成績單”。Uf228資訊網——每日最新資訊28at.com

這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。Uf228資訊網——每日最新資訊28at.com

從結果上來看,Qwen 1.5-32B已經在多項評測標準中超越或追平Mixtral 8x7B:Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

并且即便是在與自家更大參數模型PK過程中,Qwen 1.5-32B也用“以小博大”的姿勢展現出了較好的性能。Uf228資訊網——每日最新資訊28at.com

用通義千問團隊成員的話來說就是:Uf228資訊網——每日最新資訊28at.com

這個模型顯示出了與72B模型相當的性能,特別是在語言理解、多語言支持、編碼和數學能力等方面。Uf228資訊網——每日最新資訊28at.com

在推理和部署過程中,成本還會更加友好。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

不僅如此,即便是再拉來其它體量相當的大模型“選手”,Qwen 1.5-32B在多項評測中的成績依舊較為亮眼:Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

除此之外,團隊還做了一項比較有意思的測試——長文本評估任務,“大海撈針”。Uf228資訊網——每日最新資訊28at.com

簡單來說,這項任務就是將一個與文本無關的句子(“針”)隱藏在大量的文本(“大海”)中,然后通過自然語言提問的方式,觀察AI能否準確提取出這個隱藏的句子。Uf228資訊網——每日最新資訊28at.com

從結果上來看,Qwen 1.5-32B在32k tokens的上下文中性能表現良好。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

不過有一說一,剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?Uf228資訊網——每日最新資訊28at.com

大戰一波“弱智吧”Uf228資訊網——每日最新資訊28at.com

自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”。Uf228資訊網——每日最新資訊28at.com

(“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發言的中文社區。)Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

而且就在前幾天,“弱智吧”還登上正經AI論文,成了好的中文訓練數據,引發了一波不小的熱議。Uf228資訊網——每日最新資訊28at.com

這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

剛好此次Qwen 1.5-32B在開源的同時,也一并放出了在線體驗的demo,那么當它倆碰到一起,會擦出怎樣的火花?Uf228資訊網——每日最新資訊28at.com

請聽第一題:Uf228資訊網——每日最新資訊28at.com

我爸媽結婚為什么不邀請我?Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

Qwen 1.5-32B很準確地回答出了“你的父母在結婚時你尚未出生,因此他們無法邀請你參加他們的婚禮”。Uf228資訊網——每日最新資訊28at.com

繼續第二題:Uf228資訊網——每日最新資訊28at.com

為什么睡覺過夜的地方叫酒店,喝酒的地方叫夜店?Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

面對這道很經典的問題,Qwen 1.5-32B也能做到追根溯源地做正經科普。Uf228資訊網——每日最新資訊28at.com

再來第三道和第四道:Uf228資訊網——每日最新資訊28at.com

高中如果想提高升學率,為什么不直接招大學生?Uf228資訊網——每日最新資訊28at.com

網吧能上網,弱智吧為什么不能上弱智?Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

不難看出,Qwen 1.5-32B都能夠給出準確的答案。Uf228資訊網——每日最新資訊28at.com

尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:Uf228資訊網——每日最新資訊28at.com

問題似乎不太恰當或者存在誤解。Uf228資訊網——每日最新資訊28at.com

嗯,Qwen 1.5-32B是一個經住了“弱智吧Benchmark”的大模型。Uf228資訊網——每日最新資訊28at.com

至于其它關于常識、數學、編程等能力的效果,家人們可以親自去體驗一番了。Uf228資訊網——每日最新資訊28at.com

如何做到的?Uf228資訊網——每日最新資訊28at.com

正如我們剛才所述,Qwen 1.5-32B在技術架構上與此前版本并無太大的區別,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術。Uf228資訊網——每日最新資訊28at.com

這也正是它能夠在相對較小的體量之下,能夠做到性能較優且快速部署的關鍵。Uf228資訊網——每日最新資訊28at.com

GQA是一種在自然語言處理中使用的 Transformer 架構中的一種機制,它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。Uf228資訊網——每日最新資訊28at.com

這種方法可以有效地減少計算復雜度,同時保留 Transformer 模型的表示能力。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com

具體而言,GQA是通過將查詢分組并在組內計算它們的注意力,來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質量。Uf228資訊網——每日最新資訊28at.com

GQA 通過將查詢頭分為組,每個組共享單個鍵頭和值頭,來實現這一點,從而在質量和速度之間取得平衡。Uf228資訊網——每日最新資訊28at.com

如此一來,GQA的引入就降低了注意力計算的數量,從而加速了推理時間。Uf228資訊網——每日最新資訊28at.com

阿里剛開源32B大模型:我們立馬測試了“弱智吧”Uf228資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.www897cc.com/showinfo-17-81817-0.html阿里剛開源32B大模型:我們立馬測試了“弱智吧”

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 年入535億 京東健康被疑自己研發藥品:官方回應

下一篇: 谷歌搜索史上大變革!考慮對AI搜索收費

標簽:
  • 熱門焦點
  • 7月安卓手機好評榜:三星S23Ultra好評率第一

    性能榜和性價比榜之后,我們來看最后的安卓手機好評榜,數據來源安兔兔評測,收集時間2023年7月1日至7月31日,僅限國內市場。第一名:三星Galaxy S23 Ultra好評率:95.71%在即將迎來新
  • 6月iOS設備好評榜:第一蟬聯榜首近一年

    作為安兔兔各種榜單里變化最小的那個,2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化,僅僅是部分設備好評率的下降,長年累月的用戶評價和逐漸退出市場的老款機器讓這
  • 跑分安卓第一!Redmi K60至尊版8月發布!盧偉冰:目標年度性能之王

    8月5日消息,Redmi K60至尊版將于8月發布,在此前舉行的戰略發布會上,官方該機將搭載搭載天璣9200+處理器,安兔兔V10跑分超177萬分,是目前安卓陣營最高的分數
  • JavaScript 混淆及反混淆代碼工具

    介紹在我們開始學習反混淆之前,我們首先要了解一下代碼混淆。如果不了解代碼是如何混淆的,我們可能無法成功對代碼進行反混淆,尤其是使用自定義混淆器對其進行混淆時。什么是混
  • JVM優化:實戰OutOfMemoryError異常

    一、Java堆溢出堆內存中主要存放對象、數組等,只要不斷地創建這些對象,并且保證 GC Roots 到對象之間有可達路徑來避免垃 圾收集回收機制清除這些對象,當這些對象所占空間超過
  • 使用AIGC工具提升安全工作效率

    在日常工作中,安全人員可能會涉及各種各樣的安全任務,包括但不限于:開發某些安全工具的插件,滿足自己特定的安全需求;自定義github搜索工具,快速查找所需的安全資料、漏洞poc、exp
  • 電視息屏休眠仍有網絡上傳 愛奇藝被質疑“薅消費者羊毛”

    記者丨寧曉敏 見習生丨汗青出品丨鰲頭財經(theSankei) 前不久,愛奇藝發布了一份亮眼的一季報,不僅營收和會員營收創造歷史最佳表現,其運營利潤也連續6個月實現增長。自去年年初
  • 回歸OPPO兩年,一加贏了銷量,輸了品牌

    成為OPPO旗下主打性能的先鋒品牌后,一加屢創佳績。今年618期間,一加手機全渠道銷量同比增長362%,憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
  • OPPO K11樣張首曝:千元機影像“卷”得真不錯!

    一直以來,OPPO K系列機型都保持著較為均衡的產品體驗,歷來都是2K價位的明星機型,去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置,堪稱有
Top 主站蜘蛛池模板: 云和县| 章丘市| 漾濞| 隆德县| 长泰县| 海门市| 福州市| 廊坊市| 渝北区| 甘孜县| 安义县| 元阳县| 姜堰市| 卓尼县| 五指山市| 凤凰县| 曲麻莱县| 淮北市| 兰西县| 贵阳市| 宜兰市| 泗洪县| 洞头县| 沈丘县| 巫溪县| 双流县| 德安县| 浮梁县| 平山县| 吉木萨尔县| 五常市| 连城县| 凌海市| 宁蒗| 垦利县| 盱眙县| 邵阳市| 江山市| 华阴市| 抚州市| 措美县|