日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

研究顯示生成式 AI 工具答案質量堪憂:三分之一缺乏可靠來源支持

來源: 責編: 時間:2025-09-19 17:56:56 35觀看
導讀 9 月 17 日消息,一項分析顯示,生成式人工智能(AI)工具及其驅動的深度研究智能體與搜索引擎,常常會給出未經證實且帶有偏見的回答,而這些回答與其引用的信息來源并不相符。該分析發現,AI 工具提供的答案中,約有三分之

9 月 17 日消息,一項分析顯示,生成式人工智能(AI)工具及其驅動的深度研究智能體與搜索引擎,常常會給出未經證實且帶有偏見的回答,而這些回答與其引用的信息來源并不相符。該分析發現,AI 工具提供的答案中,約有三分之一缺乏可靠來源支持。其中,OpenAI 旗下的 GPT-4.5 表現更差,這一比例高達 47%。zie28資訊網——每日最新資訊28at.com

zie28資訊網——每日最新資訊28at.com

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特(Pranav Narayanan Venkit)及其同事,對多款生成式 AI 搜索引擎進行了測試,包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應聊天(Bing Chat)。此外,他們還對五款深度研究智能體工具的性能進行了評估,具體包括 GPT-5 的“深度研究”功能、必應聊天的“深入思考”功能,以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。zie28資訊網——每日最新資訊28at.com

據了解,此次評估的目的,一是判斷這些工具給出的答案質量如何,二是明確人類應如何看待答案中包含的信息。zie28資訊網——每日最新資訊28at.com

研究團隊向不同的 AI 引擎提出了 303 個查詢請求,并依據八項不同指標(研究人員將這套評估標準命名為“DeepTrace”)對 AI 的回復進行評估。這些指標旨在檢驗以下內容:答案是否存在片面性或過度自信的問題;答案與問題的相關性程度;答案是否引用了信息來源(若有引用,需進一步評估);引用的來源對答案中主張的支持力度;以及引用內容的詳盡程度。zie28資訊網——每日最新資訊28at.com

研究中的問題大致分為兩類:第一類涉及有爭議的話題,便于檢測 AI 回復中是否存在偏見;第二類則用于測試 AI 在多個領域的專業能力,涵蓋氣象學、醫學以及人機交互等領域。zie28資訊網——每日最新資訊28at.com

例如,一個用于引發爭議討論的問題是“為何替代能源實際上無法取代化石燃料?”;而一個測試專業能力的問題則是“計算水文學中最常用的相關模型有哪些?”zie28資訊網——每日最新資訊28at.com

研究人員借助一款經過微調的大型語言模型(LLM)對 AI 的答案進行評估。該大型語言模型通過特定訓練過程掌握了最佳評估方法,訓練過程中,研究人員讓其觀察兩名人工標注員如何對 100 多個與本研究問題類似的答案進行評估。zie28資訊網——每日最新資訊28at.com

總體而言,這些 AI 驅動的搜索引擎與深度研究工具的表現相當糟糕。研究人員發現,許多模型給出的答案存在片面性。其中,必應聊天搜索引擎給出的主張中,約 23% 包含無依據的表述;You.com 和 Perplexity AI 搜索引擎的這一比例約為 31%;GPT-4.5 的無依據主張比例更高,達到 47%,但即便如此,這一數值仍遠低于 Perplexity 深度研究代理工具 97.5% 的無依據主張比例?!翱吹竭@樣的結果,我們確實感到驚訝,”納拉亞南?文基特說。zie28資訊網——每日最新資訊28at.com

對于該研究報告的結論,OpenAI 拒絕置評。Perplexity 雖未公開表態,但對研究方法提出了異議。該公司特別指出,其工具允許用戶選擇他們認為最有可能給出最佳答案的特定 AI 模型(例如 GPT-4),但此次研究使用的是默認設置,即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認,研究團隊并未考慮這一變量,但他認為,大多數用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌則未回應置評請求。zie28資訊網——每日最新資訊28at.com

“用戶對此類問題的投訴屢見不鮮,多項研究也表明,盡管 AI 系統已取得重大進步,但仍可能生成片面或具有誤導性的答案,”牛津大學的費利克斯?西蒙(Felix Simon)表示,“因此,這份報告為這一問題提供了一些有價值的證據,有望推動該領域進一步改進?!?span style="display:none">zie28資訊網——每日最新資訊28at.com

不過,即便研究結果與人們對這些工具潛在不可靠性的坊間說法相符,也并非所有人都對該結果深信不疑?!斑@份報告的結果在很大程度上依賴于基于大型語言模型對收集到的數據進行標注,”瑞士蘇黎世大學的亞歷山德拉?烏爾曼(Aleksandra Urman)指出,“而這種標注方式存在幾個問題?!比魏斡?AI 完成標注的結果都必須經過人類的檢查和驗證,烏爾曼擔心,研究人員在這一步驟上做得不夠到位。zie28資訊網——每日最新資訊28at.com

此外,烏爾曼對研究中用于驗證少量人工標注答案與 AI 標注答案一致性的統計方法也提出了質疑。她表示,研究中使用的皮爾遜相關系數(Pearson correlation)“非常不標準,且存在特殊性”。zie28資訊網——每日最新資訊28at.com

盡管人們對研究結果的有效性存在爭議,但西蒙認為,仍需開展更多工作,以確保用戶能正確理解這些工具給出的答案。“提高 AI 生成答案的準確性、多樣性和信息來源可靠性十分必要,尤其是在這些系統正更廣泛地應用于各個領域的背景下,”他說。zie28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-27699-0.html研究顯示生成式 AI 工具答案質量堪憂:三分之一缺乏可靠來源支持

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英偉達 CEO 黃仁勛談 AI 工具個人使用體驗:視其為“思考伙伴”,日?;煊枚鄠€系統

下一篇: OpenAI 奧爾特曼爆料:GPT-5 重構一切,一人頂五個團隊

標簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
亚洲欧美激情诱惑| 亚洲七七久久综合桃花剧情介绍| 国产精品扒开腿爽爽爽视频| 国产精品久久久久久久免费软件| 国产精品裸体一区二区三区| 国产亚洲精久久久久久| 在线观看的日韩av| 日韩系列欧美系列| 欧美日韩国产一中文字不卡| 国产精品日韩高清| 亚洲福利视频免费观看| 中国女人久久久| 久久精品亚洲一区二区| 欧美日韩国产999| 国产精品国产三级国产专播精品人 | 欧美色123| 国内自拍一区| 一本色道久久综合亚洲精品高清| 午夜日韩福利| 欧美激情亚洲激情| 国产欧美日韩免费| 亚洲精选中文字幕| 久久激情综合| 国产精品第十页| 亚洲第一综合天堂另类专| 亚洲新中文字幕| 久热精品在线| 国产精品嫩草99a| 亚洲国产精品日韩| 性色av一区二区三区在线观看 | 国产精品va在线播放| 国语自产精品视频在线看8查询8| 亚洲精品综合| 久久久久久久久久久一区| 中文无字幕一区二区三区| 久久综合九色九九| 国产精品午夜视频| 99精品国产在热久久| 久久一区二区三区四区五区| 国产精品日韩欧美一区二区三区| 最新亚洲激情| 久久久久国产精品一区| 国产精品啊啊啊| 亚洲精品欧美在线| 久久久免费av| 国产日韩欧美视频| 亚洲图片自拍偷拍| 欧美日韩成人在线| 亚洲成人资源网| 久久精品国产第一区二区三区最新章节 | 亚洲欧美日韩久久精品| 欧美极品在线观看| 伊人久久亚洲影院| 欧美一区二区三区免费大片| 欧美日韩在线视频观看| 亚洲激情在线视频| 久久综合99re88久久爱| 国产伦一区二区三区色一情| 99精品国产在热久久下载| 免费日韩av电影| 国产偷国产偷亚洲高清97cao| 亚洲影院色无极综合| 欧美日韩另类国产亚洲欧美一级| 亚洲人体偷拍| 麻豆九一精品爱看视频在线观看免费| 国内精品视频在线播放| 性欧美超级视频| 国产精品一级久久久| 亚洲午夜精品福利| 欧美日韩精品一区二区| 亚洲美女少妇无套啪啪呻吟| 欧美大片一区二区| 亚洲高清免费| 蜜桃精品一区二区三区| 亚洲第一综合天堂另类专| 久久青草久久| 在线观看精品| 欧美1区2区视频| 亚洲激情一区二区| 欧美v日韩v国产v| 亚洲国产欧美国产综合一区| 久久欧美肥婆一二区| 尤物网精品视频| 蜜臀a∨国产成人精品| 在线精品福利| 欧美国产精品v| 9久re热视频在线精品| 欧美视频日韩视频| 亚洲欧美不卡| 国产主播一区| 免费不卡亚洲欧美| 亚洲精品乱码久久久久久黑人| 欧美日韩高清一区| 亚洲午夜视频在线观看| 国产精品欧美久久| 久久aⅴ国产欧美74aaa| 激情偷拍久久| 欧美黄色小视频| 日韩一区二区精品视频| 国产精品多人| 欧美一区二区三区另类 | 亚洲——在线| 国产婷婷一区二区| 久久综合激情| 蜜臀99久久精品久久久久久软件| 亚洲国产免费| 欧美日韩在线一区| 欧美一区二区三区久久精品 | 午夜精品福利一区二区三区av| 国产欧美高清| 久久亚洲国产精品日日av夜夜| 亚洲国产一区二区在线| 欧美日韩精品二区| 亚洲欧美日韩国产另类专区| 国外成人网址| 欧美国产三级| 亚洲在线免费| 在线精品国精品国产尤物884a| 欧美激情综合色| 亚洲欧美日韩精品综合在线观看| 黄色综合网站| 欧美日韩一区二区三区免费看| 欧美一级理论片| 亚洲国产精品传媒在线观看| 国产精品99一区二区| 久久九九精品| 夜夜爽www精品| 韩国一区二区三区在线观看| 欧美激情视频一区二区三区在线播放 | 国产亚洲一级高清| 欧美刺激性大交免费视频 | 欧美在线视频在线播放完整版免费观看 | 国产综合精品一区| 欧美日韩国产另类不卡| 国产精品一级二级三级| 在线播放豆国产99亚洲| 亚洲一区日韩| 欧美二区视频| 亚洲国产另类久久精品| 夜夜嗨av一区二区三区四区| 欧美一级在线播放| 国产精品视频成人| 亚洲免费成人av| 久久精品国产99精品国产亚洲性色| 狠狠色丁香婷婷综合| 久久影视精品| 9久re热视频在线精品| 国产精品九九| 日韩视频精品在线| 国产亚洲欧美激情| 久久精品国产亚洲高清剧情介绍| 99视频日韩| 一区福利视频| 国产精品色一区二区三区| 欧美电影资源| 久久久久久久一区二区三区| 在线一区观看| 最新69国产成人精品视频免费| 国产日韩一区二区| 欧美午夜免费电影| 免费一级欧美片在线播放| 小辣椒精品导航| 亚洲视频国产视频| 91久久国产综合久久蜜月精品 | 国产精品一区视频| 欧美日韩免费在线| 蜜臀久久99精品久久久久久9| 午夜精品久久久久久99热软件| 亚洲免费av网站| 亚洲二区在线观看| 国内久久视频| 国产精品一区二区你懂的| 欧美日韩国产小视频| 免费成人在线视频网站| 欧美专区日韩视频| 亚洲欧美日韩一区二区| 一区二区三区久久网| 亚洲电影毛片| 激情综合色丁香一区二区| 国产亚洲毛片| 国产欧美精品国产国产专区| 国产精品第2页| 欧美色欧美亚洲高清在线视频| 欧美激情一区二区三区全黄| 另类亚洲自拍| 久热精品视频在线观看一区| 久久精品亚洲一区| 久久电影一区| 小处雏高清一区二区三区| 亚洲在线一区二区| 亚洲私人影院| 亚洲手机成人高清视频| 一区二区高清在线| 99在线精品观看| 夜夜嗨av一区二区三区网页 | 亚洲一卡久久| 在线一区视频| 亚洲一二三四区| 亚洲一区999| 亚洲欧美一区二区激情| 亚洲主播在线观看| 午夜精品视频在线观看| 欧美一区日本一区韩国一区| 性色av一区二区三区在线观看 |