4 月 9 日消息,谷歌之前在 Google Next 大會(huì)上宣布將首次通過其 AI 應(yīng)用平臺(tái) Vertex AI 向公眾開放 Gemini1.5 Pro。
谷歌現(xiàn)已推出 Gemini 1.5 Pro 公共預(yù)覽版,并借此為其賦予了“耳朵”,從而幫助用戶處理音頻內(nèi)容,例如可以直接上傳一份音頻文件讓它來分析,或者上傳一份財(cái)報(bào)電話會(huì)議錄音或視頻來讓它總結(jié)。
據(jù)稱,這個(gè) Gemini系列中定位“中量級(jí)”模型的版本在性能上已經(jīng)超越了自家更大的模型 ——GeminiUltra。谷歌稱,Gemini1.5 Pro 可以理解復(fù)雜的指令,并且無需對模型進(jìn)行微調(diào)。
當(dāng)然,Gemini1.5 Pro 目前僅限于 Vertex AI 用戶體驗(yàn),而 GeminiUltra 則因?yàn)镚emini聊天機(jī)器人的原因?yàn)樗?Pro 用戶提供服務(wù)。不過,盡管 GeminiUltra 功能更多并且能夠理解長指令,但處理速度不如 Gemini1.5 Pro。
實(shí)際上,Gemini1.5 Pro 并非唯一獲得更新的谷歌大模型,輔助 Gemini生成圖像的文生圖模型 Imagen 2 也將加入圖片修復(fù)和擴(kuò)充功能,使用戶可以添加或移除圖像元素。
注意到,谷歌還為 Imagen 模型的所有圖片提供了數(shù)字水印功能“SynthID”。簡單來說,SynthID 在圖像中添加了一個(gè)用戶不可見的防偽標(biāo)識(shí),但可以通過檢測工具來確認(rèn)其來源。
值得注意的是,Imagen 的許多新功能,例如圖片修復(fù)和擴(kuò)充,已經(jīng)出現(xiàn)在其他文生圖模型中,例如 Stability AI 的 Stable Diffusion 和 Getty 公司的 Generative AI by iStock 上,更不用說最新款三星 Galaxy 手機(jī)還有類似的功能。
谷歌表示,他們還將在公開預(yù)覽中嘗試將 AI 響應(yīng)與谷歌搜索結(jié)果結(jié)合,以便利用最新情報(bào)進(jìn)行解答。
參考資料:
《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》
本文鏈接:http://www.www897cc.com/showinfo-45-3952-0.html谷歌推出 Gemini 1.5 Pro 公共預(yù)覽版,現(xiàn)已支持處理音頻
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: Instagram 短視頻板塊 Reels 測試 AI 同傳功能,用戶可用自己聲音“說外語”
下一篇: 聯(lián)發(fā)科推出生成式 AI 服務(wù)平臺(tái)“達(dá)哥”,支持“最強(qiáng)繁體中文大模型”MR BreeXe