7 月 10 日消息,隨著生成式人工智能(AI)技術(shù)不斷演進(jìn),其應(yīng)用場(chǎng)景已從早期的簡(jiǎn)單問答擴(kuò)展到更復(fù)雜的任務(wù)。然而,對(duì)于缺乏技術(shù)背景的用戶而言,如何高效、準(zhǔn)確地使用這些 AI 工具,正變得越來越具有挑戰(zhàn)性。
一份獨(dú)立報(bào)告顯示,微軟 AI 部門收到的用戶投訴中,最常見的一條是“Copilot 不如 ChatGPT 好用”。對(duì)此,微軟迅速回應(yīng),將問題歸咎于用戶“提示詞工程能力不佳”。為改善用戶體驗(yàn),微軟還推出了“Copilot 學(xué)院”,幫助用戶提升 AI 使用技能。
注意到,麻省理工學(xué)院(MIT)的一項(xiàng)最新研究(via Futurism)表明,微軟將問題歸咎于用戶提示詞能力的做法或許并非全無(wú)道理。
該研究指出,過度依賴 AI 工具獲取醫(yī)療建議可能帶來危險(xiǎn)。更令人擔(dān)憂的是,如果用戶在提問時(shí)出現(xiàn)拼寫錯(cuò)誤(如單詞拼錯(cuò)或多余空格),AI 可能會(huì)因此建議用戶無(wú)需就醫(yī)。此外,使用花哨語(yǔ)言或俚語(yǔ)也可能導(dǎo)致 AI 判斷失誤。
研究還發(fā)現(xiàn),女性用戶比男性更容易受到此類錯(cuò)誤建議的影響,盡管這一結(jié)論仍需進(jìn)一步驗(yàn)證。
此次研究涵蓋了多個(gè) AI 工具,包括 OpenAI 的 GPT-4、Meta 的 LLaMA-3-70B,以及一款名為 Palmyra-Med 的醫(yī)療專用 AI。研究人員模擬了數(shù)千個(gè)健康案例,數(shù)據(jù)來源包括真實(shí)患者投訴、Reddit 上的健康相關(guān)帖子,以及 AI 生成的病例。
為測(cè)試 AI 的穩(wěn)定性,研究人員在數(shù)據(jù)中加入了“擾動(dòng)因素”,如句子首字母大小寫不一致、感嘆號(hào)、情緒化語(yǔ)言,以及“可能”“大概”等不確定表達(dá)。結(jié)果顯示,這些擾動(dòng)使 AI 建議用戶“無(wú)需就醫(yī)”的概率上升了 7% 至 9%。
研究負(fù)責(zé)人、MIT 研究員阿比尼塔?古拉巴蒂娜(Abinitha Gourabathina)指出:“這些模型通常是在醫(yī)學(xué)考試題目上訓(xùn)練和測(cè)試的,但實(shí)際應(yīng)用場(chǎng)景卻相差甚遠(yuǎn),比如評(píng)估臨床病例的嚴(yán)重程度。我們對(duì)大語(yǔ)言模型的理解仍然非常有限。”
這一研究結(jié)果引發(fā)了對(duì) AI 在醫(yī)療領(lǐng)域應(yīng)用的廣泛擔(dān)憂。值得注意的是,就在不久前,微軟剛剛宣布其新推出的 AI 醫(yī)療工具“準(zhǔn)確率是人類醫(yī)生的 4 倍,成本卻低 20%”。微軟 AI 首席執(zhí)行官甚至稱其為“邁向醫(yī)療超級(jí)智能的真正一步”。
然而,這項(xiàng)研究再次提醒我們,生成式 AI 在醫(yī)療等高度復(fù)雜的領(lǐng)域仍遠(yuǎn)未達(dá)到完全可靠的水平。盡管技術(shù)發(fā)展迅速,但在真正投入使用前,仍需更多驗(yàn)證與審慎評(píng)估。
本文鏈接:http://www.www897cc.com/showinfo-45-14483-0.htmlAI 醫(yī)療建議可靠性存疑:MIT 研究揭示用戶提問方式影響 AI 判斷
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 迪拜“AI 主廚”餐廳即將開業(yè):大模型設(shè)計(jì)菜譜,打造獨(dú)特大膽味覺體驗(yàn)
下一篇: ChatGPT 又遇“奶奶漏洞”,網(wǎng)友成功讓 GPT-4o 主動(dòng)生成“Win7 密鑰”