6月6日,第七屆智源大會在北京盛大召開,這場被譽為“AI學術春晚”的盛會吸引了眾多科技界精英的目光。會上,北京智源人工智能研究院(簡稱“智源研究院”)發(fā)布了一系列名為“悟界”的大模型,標志著AI技術邁向了全新的發(fā)展階段。
作為我國在大模型研發(fā)領域的先行者,智源研究院此次推出的“悟界”系列大模型包括原生多模態(tài)世界模型Emu3、跨本體具身大小腦協(xié)作框架RoboOS 2.0與全新智源具身大腦RoboBrain 2.0、全球首個腦科學多模態(tài)通用基礎模型見微Brainμ,以及全原子微觀生命模型OpenComplex2。這些創(chuàng)新成果是在“悟道”系列大模型成功發(fā)布后的又一重要里程碑。
智源研究院院長王仲遠在會前透露,AI大模型技術仍具有廣闊的發(fā)展空間,當前階段,AI在感知世界和空間方面存在不足,多模態(tài)數(shù)據(jù)尚未被充分利用。因此,從“悟道”到“悟界”的跨越是水到渠成的事,AI正加速從數(shù)字世界向物理世界邁進,這一趨勢構成了實現(xiàn)物理AGI(通用人工智能)的關鍵路徑。
“悟道”中的“道”代表了智源對大語言模型系統(tǒng)化方法和路徑的探索,而“悟界”中的“界”則象征著虛實世界邊界的不斷突破。王仲遠表示,“悟界”系列大模型體現(xiàn)了智源對AI技術從數(shù)字世界邁向物理世界的深刻洞察。
王仲遠進一步指出,“具身智能”并非特指人形機器人的智能,因此“悟界”可以適配多種機器人類別,包括輪式單臂、輪式雙臂、人形雙足、四足等。目前,智源已與20多家具身智能領域的領軍企業(yè)建立了深度的合作關系。
在與眾多具身智能創(chuàng)業(yè)者及科研學術界專家的交流中,王仲遠堅信,具身智能的“小組賽”尚未結束,仍處于激烈競爭的階段。他呼吁行業(yè)內的更多參與方共同推動具身智能產業(yè)的發(fā)展,因為這將帶來多元化的視角和理念。
王仲遠還強調,當前人形機器人的硬件和模型技術均不夠成熟。未來,機器人有望在特定場景,特別是相對封閉的場景中率先落地,如工廠中的固定、重復、枯燥甚至危險的任務,這將是具身智能的第一波紅利。
智源研究院自2018年11月在北京海淀成立以來,一直致力于成為AI創(chuàng)新的引領者,挑戰(zhàn)最基礎的問題和最關鍵的難題。智源社區(qū)已鏈接超過19萬名AI技術人員,并與近2000位海內外青年AI科學家緊密合作,共同加速AI原始創(chuàng)新。
在成立6年多的時間里,智源研究院率先預見AI大模型時代的到來,并于2020年組建了一支百余人的技術攻關團隊,啟動了悟道系列大模型的研發(fā)工作。截至目前,智源已發(fā)布悟道1.0、2.0、3.0等多個版本,構建了自主可控的全棧大模型技術開源體系,并成功孵化出多家國內頭部大模型創(chuàng)業(yè)公司。
去年,智源大會發(fā)布了一系列技術產品,推動大模型從語言模型向多模態(tài)大模型延伸,并向世界模型方向演進,加速了從數(shù)字AI世界向物理AI世界的跨越。王仲遠表示,實踐證明,智源對技術演進路徑的預判是正確的。
據(jù)透露,目前智源開源模型的全球總下載量已超過6.4億次,比去年同期的4755萬次提升了12.5倍。AI系統(tǒng)軟件棧FlagOS已對11家國內外廠商的18款AI芯片實現(xiàn)了統(tǒng)一支持,開源了超過160個數(shù)據(jù)集,下載量近113萬次,開源項目代碼下載量也超過了140萬次。
王仲遠指出,盡管大模型技術取得了顯著進展,但仍未到達發(fā)展的盡頭。當前所說的“百模大戰(zhàn)”主要集中在大語言模型的競爭上,而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎模型性能的提升速度已不如以前。他提出了突破大語言模型性能提升瓶頸的三種方法:一是通過強化學習在后訓練和推理上提升性能;二是數(shù)據(jù)合成,實現(xiàn)AI自我學習和進步;三是充分利用多模態(tài)數(shù)據(jù)。
為了推進AI與物理世界的交互,智源通過多種研發(fā)方式,利用原生多模態(tài)世界模型讓AI感知和理解物理世界。在宏觀層面,大模型與硬件結合,通過具身智能的發(fā)展解決實際生產生活問題;在微觀層面,基于生成式AI的蛋白質、腦機接口等應用,能夠進一步揭示微觀世界的本質,構建AI與物理世界交互的基座。
具體來說,原生多模態(tài)世界模型Emu3使大模型具備了理解和推理世界的能力。腦科學多模態(tài)通用基礎模型見微Brainμ則基于Emu3架構,引入了腦信號這一新的模態(tài)數(shù)據(jù),實現(xiàn)了單一模型完成多種神經(jīng)科學任務的大一統(tǒng)。多模態(tài)與腦科學模型未來有望成為人機交互具身場景下的基礎模型。
王仲遠表示,雖然多模態(tài)技術路線尚未收斂,但文生圖、文生視頻等技術已取得了顯著進展,并在某些特定場景中實現(xiàn)了落地。然而,這些技術能否廣泛普及仍需一段時間。
RoboOS 2.0與RoboBrain 2.0在初代版本的基礎上實現(xiàn)了性能的大幅提升,并新增了多機協(xié)作規(guī)劃與物理常識驅動的空間推理能力。而OpenComplex2則能在原子分辨率層面捕捉分子相互作用及平衡構象,探索微觀構象波動與宏觀生物功能的跨尺度關聯(lián)。
王仲遠認為,具身智能目前仍處于技術探索的早期階段,類似于大模型在GPT-3之前的摸索期。當前,具身智能面臨多重挑戰(zhàn),包括核心技術路徑不明確、數(shù)據(jù)采集困難以及軟硬件協(xié)同復雜等問題。他預計,未來5-10年,大小腦融合的模型可能會逐漸成熟。
在開源模型方面,智源研究院已擁有多個通用向量模型,包括BGE系列等,這些模型已被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業(yè)商業(yè)化集成。智源還開源了輕量長視頻理解模型Video-XL-2以及全能視覺生成模型OmniGen。
大會期間,智源研究院還與北京大學第一醫(yī)院簽署了戰(zhàn)略合作協(xié)議,并與持有620億港元的香港投資管理有限公司建立了戰(zhàn)略合作框架,共同構建世界級跨區(qū)域合作的AI生態(tài)圈。這一合作將加速人才、技術、資本的融合,構建人才循環(huán)體系,支持AI創(chuàng)新創(chuàng)業(yè),加速AI產業(yè)的全球化發(fā)展。
本文鏈接:http://www.www897cc.com/showinfo-45-13523-0.html智源研究院發(fā)布“悟界”大模型,王仲遠:具身智能小組賽正酣
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com