日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

整合海量公共數據,谷歌開源 AI 統計學專家 DataGemma

來源: 責編: 時間:2024-10-06 09:27:05 91觀看
導讀 準確的統計數據、時效性強的信息,一直是大語言模型產生幻覺的重災區。知識是現成的,但學是不可能學的。并非此身惰怠,只因現實太多阻礙。對于這個問題,谷歌在近日推出了自己籌劃已久的大型數據庫 Data Commons,以

準確的統計數據、時效性強的信息,一直是大語言模型產生幻覺的重災區。qhB28資訊網——每日最新資訊28at.com

知識是現成的,但學是不可能學的。并非此身惰怠,只因現實太多阻礙。qhB28資訊網——每日最新資訊28at.com

對于這個問題,谷歌在近日推出了自己籌劃已久的大型數據庫 Data Commons,以及在此基礎上誕生的大模型 DataGemma。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

論文地址:https://docs.datacommons.org/papers/DataGemma-FullPaper.pdfqhB28資訊網——每日最新資訊28at.com

Data Commons 是一個龐大的開源公共統計數據存儲庫,包含來自聯合國(UN)、疾病控制與預防中心(CDC)、人口普查局、衛生部、環境機構、經濟部門、非政府組織和學術機構等可信來源的大量統計數據。qhB28資訊網——每日最新資訊28at.com

目前,整個語料庫包含超過 2500 億個數據點和超過 2.5 萬億個三元組。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

數據有了,模型要怎么處理?本文提出了一種將 LLM 橋接到數據的通用架構,并探討了需要解決的三個問題。qhB28資訊網——每日最新資訊28at.com

首先,LLM 必須學會在適當的時機選擇,是使用存儲在模型參數中的知識,還是從外部獲取信息。qhB28資訊網——每日最新資訊28at.com

當然了,關于何時查詢外部源這件事,需要 LLM 學到自己的參數里,這可以采用多種機制來實現。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

其次,需要決定應該從哪個外部源查詢所需的信息,因為可用的信息源可能很多而且是動態的。在本文中,作者直接使用單一外部信息源來包含大量數據源。qhB28資訊網——每日最新資訊28at.com

最后,一旦明確了需要哪些外部數據,LLM 就需要生成一個或多個查詢來獲取這些數據。qhB28資訊網——每日最新資訊28at.com

一般來說,不同的來源會產生不同類型的數據,如果 LLM 還要專門去學習各種 API 就有點麻煩了。因此,作者開發了用于外部數據和服務的單一通用 API。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

API 的靈感來自于 Robert McCool 在 1993 年設計的 URL 參數編碼接口,雖然簡單,卻經受住了時間的考驗,是目前在網絡上最接近通用 API 的接口。qhB28資訊網——每日最新資訊28at.com

作者使用自然語言來表達查詢,返回的答案可以用 mime-type 來增強,以允許非文本答案。qhB28資訊網——每日最新資訊28at.com

搞定了這些,一個能夠充分利用最新最全外部數據的「AI 統計學家」(或者叫統計學魔術師)就誕生了。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

DataGemma

對于 Data Commons 這么龐大的數據源,想要被 LLM 正常使用,需要面對一些現實的挑戰:qhB28資訊網——每日最新資訊28at.com

1. 與統計事實相關的用戶查詢可能涉及一系列邏輯、算術或比較運算。qhB28資訊網——每日最新資訊28at.com

比如「世界上排名前 5 的二氧化碳排放國是哪些國家?」;更復雜一點的比如「加利福尼亞州是世界上最大的經濟體嗎?」(這里面暗含了所比較的實體 —— 加利福尼亞州與其他國家 / 地區相比,而不是美國各州);或者「煤發電量高的美國各州,慢性阻塞性肺病發病率也很高嗎?」(這涉及到實體和指標之間的比較)。qhB28資訊網——每日最新資訊28at.com

2. 公共統計數據包含多種模式和格式,通常需要相當多的背景上下文才能正確解釋。qhB28資訊網——每日最新資訊28at.com

之前的工作利用了兩種方法來緩解這些問題:使用工具和檢索增強生成(RAG)。qhB28資訊網——每日最新資訊28at.com

前一種方法會調整 LLM 來生成一種標記語言,能夠將自然文本與對外部工具的函數調用穿插在一起。為了對抗幻覺,工具可能會查詢數據庫或搜索引擎。qhB28資訊網——每日最新資訊28at.com

而在 RAG 中,輔助檢索系統從大型語料庫中識別與用戶查詢相關的背景知識,然后用這些知識來增強用戶的查詢。qhB28資訊網——每日最新資訊28at.com

本文作者以谷歌開源的 Gemma 和 Gemma-2 模型為基礎,分別利用檢索交錯生成(RIG)和 RAG 微調出兩個新的版本。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

開源模型:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643qhB28資訊網——每日最新資訊28at.com

數據共享

Data Commons 的數據共享涉及兩項創新。qhB28資訊網——每日最新資訊28at.com

首先,研究人員花了數年時間訪問大量公開可用的數據集,追蹤數據背后的假設,并使用 Schema.org(一種用于編碼結構化數據的開放詞匯表)對它們進行規范化,最終形成了一個包含所有數據的通用知識圖譜。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

其次,研究人員使用 LLM 創建一個自然語言界面,允許用戶用通用語言提出問題,并通過圖表等方式來探索龐大的數據庫。qhB28資訊網——每日最新資訊28at.com

需要明確的是,LLM 只是將查詢轉換為 Data Commons 中的詞匯表,不會與底層數據交互,也不會生成輸出,因此不必擔心出現幻覺之類的問題。qhB28資訊網——每日最新資訊28at.com

當前的方法是利用這個自然語言接口,教導 LLM 何時以及如何與 Data Commons 的接口進行通信。qhB28資訊網——每日最新資訊28at.com

對齊方面,作者采用 LIMA(一種指令調整和強化學習方法),遵循少即是多的原則,利用數量少但質量很高的一組示例,使最終任務與用戶偏好保持一致。qhB28資訊網——每日最新資訊28at.com

RIG 與 RAG

接下來介紹將 LLM 與 Data Commons 連接的兩種不同方法:qhB28資訊網——每日最新資訊28at.com

RIGqhB28資訊網——每日最新資訊28at.com

檢索交錯生成 (RIG),是一種受使用工具啟發的方法,將 LLM 進行微調以生成自然語言數據共享查詢,然后,多模型管道將此查詢轉換為結構化數據查詢,用于從 Data Commons 數據庫檢索答案。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

如上圖所示,這里擴展了 RIG 管道的步驟。首先是經過微調以生成自然語言查詢的模型;接著是后處理器,將自然語言查詢轉換為結構化數據查詢;最后一個組件是查詢機制,從 Data Commons 檢索統計答案并使用 LLM 生成。qhB28資訊網——每日最新資訊28at.com

當向 LLM 提出統計查詢時,通常會生成包含數字答案的文本(如下圖所示)。這時可以根據數字(LLM-SV)相關的上下文,在 Data Commons 數據庫中匹配最相關的值(DC-SV),作為事實檢查機制一起返回給用戶。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

研究人員選擇了大約 700 個用戶查詢(對應不同的統計問題)。qhB28資訊網——每日最新資訊28at.com

對于每個問題,都會從基本模型中選擇帶有統計數據的答案(約 400 個),然后將這些響應提供給功能更強大的 LLM(Gemini 1.5 Pro),指示它圍繞統計數據點引入自然語言數據共享調用。qhB28資訊網——每日最新資訊28at.com

所使用的提示包含三個示例作為指導,要求注釋出統計值和單位,還要指示數據共享調用包括地名、指標和日期等。最后會進行人工審查,并手動重寫不符合要求的數據共享調用。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

為了評估單個測試查詢響應,這里需要子字符串級別的詳細反饋。研究人員采用了上圖所示的可視化工具。qhB28資訊網——每日最新資訊28at.com

人工評估人員能夠瀏覽所有查詢,并檢查每個查詢響應中的所有 Data Commons 調用,首先快速檢查是否存在任何明顯的事實不準確之處,然后對響應中存在的每項統計數據進行評估。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

上表顯示了 RIG 方法的事實準確性指標(Data Commons 中的統計數據與 101 個查詢中的 LLM 響應進行比較的情況)。總體而言,RIG 方法提高了真實性,從 5-17% 提高到約 58%。qhB28資訊網——每日最新資訊28at.com

RAGqhB28資訊網——每日最新資訊28at.com

RAG 管道同樣包含多個組件。首先,用戶查詢被傳遞到一個小型的、經過微調的 LLM,它會生成與用戶查詢相關的自然語言查詢;然后,通過 Data Commons 的自然語言接口來獲取相關的表;最后,將原始用戶查詢和檢索到的表交給長上下文 LLM(Gemini 1.5 Pro)。qhB28資訊網——每日最新資訊28at.com

原始用戶查詢以及結果表可能會相當長。例如,比較查詢可能包括來自美國所有 50 個州或全球 194 個國家的多個表的多年數據。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

在綜合查詢集中,平均輸入長度為 38,000 個 token,最大輸入長度為 348,000 個 token。由于輸入量很大,因此必須使用長上下文 LLM,用戶響應如上圖所示。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

對于 RAG 方法,人類評估者評估 LLM 生成的細粒度問題及其相應的數據共享響應的質量。首先驗證是否生成了足夠且相關的問題來解決用戶查詢(上圖);然后評估每個單獨問題的質量及其相應的數據共享響應(下圖)。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

下表的結果表明,LLM 在引用數字時通常是準確的 (99%),當根據這些說法進行推論時,準確性會下降,在 6-20% 的時間內得出錯誤的推論。qhB28資訊網——每日最新資訊28at.com

qhB28資訊網——每日最新資訊28at.com

參考資料:qhB28資訊網——每日最新資訊28at.com

https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/qhB28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-8033-0.html整合海量公共數據,谷歌開源 AI 統計學專家 DataGemma

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: macOS 原生版 Perplexity 本月 15 日上線:AI 顛覆搜索體驗,重塑蘋果 Mac 用戶知識管理

下一篇: OpenAI 推出全新寫作、編碼工具 ChatGPT Canvas,將免費開放

標簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 建始县| 古蔺县| 饶平县| 古浪县| 仲巴县| 江城| 嘉黎县| 加查县| 华容县| 昌吉市| 修文县| 杭锦后旗| 陆良县| 苏尼特右旗| 瑞金市| 犍为县| 朝阳区| 鄂托克前旗| 枣阳市| 镇坪县| 茂名市| 金沙县| 开阳县| 西充县| 商水县| 阳东县| 海安县| 扶余县| 深泽县| 长阳| 高台县| 丹阳市| 通河县| 安康市| 东方市| 岳西县| 尉犁县| 南开区| 驻马店市| 耿马| 淮北市|