當前位置：首頁 > 元宇宙 > AI

研究顯示生成式 AI 工具答案質量堪憂：三分之一缺乏可靠來源支持

來源：責編：時間：2025-09-19 17:56:56 35觀看

導讀 9 月 17 日消息，一項分析顯示，生成式人工智能（AI）工具及其驅動的深度研究智能體與搜索引擎，常常會給出未經證實且帶有偏見的回答，而這些回答與其引用的信息來源并不相符。該分析發現，AI 工具提供的答案中，約有三分之

9 月 17 日消息，一項分析顯示，生成式人工智能（AI）工具及其驅動的深度研究智能體與搜索引擎，常常會給出未經證實且帶有偏見的回答，而這些回答與其引用的信息來源并不相符。該分析發現，AI 工具提供的答案中，約有三分之一缺乏可靠來源支持。其中，OpenAI 旗下的 GPT-4.5 表現更差，這一比例高達 47%。

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特（Pranav Narayanan Venkit）及其同事，對多款生成式 AI 搜索引擎進行了測試，包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應聊天（Bing Chat）。此外，他們還對五款深度研究智能體工具的性能進行了評估，具體包括 GPT-5 的“深度研究”功能、必應聊天的“深入思考”功能，以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。

據了解，此次評估的目的，一是判斷這些工具給出的答案質量如何，二是明確人類應如何看待答案中包含的信息。

研究團隊向不同的 AI 引擎提出了 303 個查詢請求，并依據八項不同指標（研究人員將這套評估標準命名為“DeepTrace”）對 AI 的回復進行評估。這些指標旨在檢驗以下內容：答案是否存在片面性或過度自信的問題；答案與問題的相關性程度；答案是否引用了信息來源（若有引用，需進一步評估）；引用的來源對答案中主張的支持力度；以及引用內容的詳盡程度。

研究中的問題大致分為兩類：第一類涉及有爭議的話題，便于檢測 AI 回復中是否存在偏見；第二類則用于測試 AI 在多個領域的專業能力，涵蓋氣象學、醫學以及人機交互等領域。

例如，一個用于引發爭議討論的問題是“為何替代能源實際上無法取代化石燃料？”；而一個測試專業能力的問題則是“計算水文學中最常用的相關模型有哪些？”

研究人員借助一款經過微調的大型語言模型（LLM）對 AI 的答案進行評估。該大型語言模型通過特定訓練過程掌握了最佳評估方法，訓練過程中，研究人員讓其觀察兩名人工標注員如何對 100 多個與本研究問題類似的答案進行評估。

總體而言，這些 AI 驅動的搜索引擎與深度研究工具的表現相當糟糕。研究人員發現，許多模型給出的答案存在片面性。其中，必應聊天搜索引擎給出的主張中，約 23% 包含無依據的表述；You.com 和 Perplexity AI 搜索引擎的這一比例約為 31%；GPT-4.5 的無依據主張比例更高，達到 47%，但即便如此，這一數值仍遠低于 Perplexity 深度研究代理工具 97.5% 的無依據主張比例?！翱吹竭@樣的結果，我們確實感到驚訝，”納拉亞南?文基特說。

對于該研究報告的結論，OpenAI 拒絕置評。Perplexity 雖未公開表態，但對研究方法提出了異議。該公司特別指出，其工具允許用戶選擇他們認為最有可能給出最佳答案的特定 AI 模型（例如 GPT-4），但此次研究使用的是默認設置，即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認，研究團隊并未考慮這一變量，但他認為，大多數用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌則未回應置評請求。

“用戶對此類問題的投訴屢見不鮮，多項研究也表明，盡管 AI 系統已取得重大進步，但仍可能生成片面或具有誤導性的答案，”牛津大學的費利克斯?西蒙（Felix Simon）表示，“因此，這份報告為這一問題提供了一些有價值的證據，有望推動該領域進一步改進?！?span style="display:none">zie28資訊網——每日最新資訊28at.com

不過，即便研究結果與人們對這些工具潛在不可靠性的坊間說法相符，也并非所有人都對該結果深信不疑?！斑@份報告的結果在很大程度上依賴于基于大型語言模型對收集到的數據進行標注，”瑞士蘇黎世大學的亞歷山德拉?烏爾曼（Aleksandra Urman）指出，“而這種標注方式存在幾個問題?！比魏斡?AI 完成標注的結果都必須經過人類的檢查和驗證，烏爾曼擔心，研究人員在這一步驟上做得不夠到位。

此外，烏爾曼對研究中用于驗證少量人工標注答案與 AI 標注答案一致性的統計方法也提出了質疑。她表示，研究中使用的皮爾遜相關系數（Pearson correlation）“非常不標準，且存在特殊性”。

盡管人們對研究結果的有效性存在爭議，但西蒙認為，仍需開展更多工作，以確保用戶能正確理解這些工具給出的答案。“提高 AI 生成答案的準確性、多樣性和信息來源可靠性十分必要，尤其是在這些系統正更廣泛地應用于各個領域的背景下，”他說。

本文鏈接：http://www.www897cc.com/showinfo-45-27699-0.html研究顯示生成式 AI 工具答案質量堪憂：三分之一缺乏可靠來源支持

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英偉達 CEO 黃仁勛談 AI 工具個人使用體驗：視其為“思考伙伴”，日?；煊枚鄠€系統

下一篇： OpenAI 奧爾特曼爆料：GPT-5 重構一切，一人頂五個團隊

標簽：

熱門焦點

B端難做：留給魔琺科技的時間不多了

來源：零態LT元宇宙泡沫正在碎裂，進入2023年后這一賽道熱度一直在遞減。今年2月，微軟解散了成立僅四個月的工業元宇宙部門；今年3月，該公司2017年收購的虛擬現實社交平臺AltspaceVR
一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

當數字人成為一種生意，我們更關心的是，他們如何賺到錢，以及這意味著什么？01#“柳夜熙”爆火之后不知道大家還記不記得，去年10月31日萬圣節，有一位虛擬美妝
城市數字孿生標準化白皮書（2022版）

當前，城市數字孿生已經發展成為支撐智慧城市的重要技術手段。城市數字孿生通過在數字空間對城市物理空間和社會空間進行全要素表達、全過程呈現、全周期可溯，實
2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

傳感器是由敏感元件和轉換元件構成，能夠感受規定的檢測量(物理量、化學量、生物量等)，并按照一定規律將檢測量轉化成可用的輸出信號的器件和裝置，進而滿足信息的
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
從冰墩墩到無聊猿，解秘未來IP爆款的模因

打造IP，是建設元宇宙的剛需。NFT能直接讓IP的價值變現；虛擬人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一個個品牌IP星球，考驗的是IP世界觀的建設能力。如果說在
以用戶為中心，Web3和區塊鏈如何將用戶放在首位

競爭優勢正在改變競爭優勢是每個企業都在努力爭取的，由谷歌、Facebook和Netflix等大型科技公司主導的市場中，兩大重要類別的競爭優勢十分突出。第一個競爭優勢來
以太坊面臨來自Fantom的巨大挑戰

眾所周知，區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加
虛擬鄧麗君后，數字人賽道開啟3.0時代

“如果右腦時代來臨，虛擬世界將是對人類才華的無限放大。” 郭曉喆稱，開發數字人形象時，自己的團隊在內部“卷”了一下：“當我們翻閱大量歷史典籍的時候，蘇小妹找到

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

研究顯示生成式 AI 工具答案質量堪憂：三分之一缺乏可靠來源支持

B端難做：留給魔琺科技的時間不多了

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

城市數字孿生標準化白皮書（2022版）

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

從冰墩墩到無聊猿，解秘未來IP爆款的模因

以用戶為中心，Web3和區塊鏈如何將用戶放在首位

以太坊面臨來自Fantom的巨大挑戰

虛擬鄧麗君后，數字人賽道開啟3.0時代

最新推薦

避坑指南：遠離具有這些特性的NFT

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

傳統互聯網與區塊鏈場景下數據權利法律分析

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

猜你喜歡

熱門推薦

相關資訊