亚洲国产一区二区三区亚瑟_亚洲熟女少妇精品_亚洲国产精品久久久久秋霞小说_午夜福利啪啪无遮挡免费_国产成年女人毛片80s网站_成人av鲁丝片一区二区免费

快訊 >

科學(xué)家發(fā)現(xiàn),AI 大語(yǔ)言模型仍難以區(qū)分“信念”與“事實(shí)”

時(shí)間:2025-11-07 09:23:18       來(lái)源:IT之家

IT之家 11 月 7 日消息,據(jù)新華社今日?qǐng)?bào)道,美國(guó)斯坦福大學(xué)近日發(fā)表的一項(xiàng)研究指出,包括 ChatGPT 在內(nèi)的多款 AI 聊天機(jī)器人在識(shí)別用戶(hù)錯(cuò)誤信念方面存在明顯局限性,仍無(wú)法可靠區(qū)分信念還是事實(shí)。


(相關(guān)資料圖)

研究表明,當(dāng)用戶(hù)的個(gè)人信念與客觀事實(shí)發(fā)生沖突時(shí),AI 往往難以可靠地作出準(zhǔn)確判斷,容易出現(xiàn)“幻覺(jué)”或傳播錯(cuò)誤信息的情況。相關(guān)成果已于 11 月 3 日發(fā)表于《自然?機(jī)器智能》。

研究團(tuán)隊(duì)測(cè)試了 24 個(gè)前沿語(yǔ)言模型,其中包括 Claude、ChatGPT、DeepSeek 以及 Gemini。研究者共向這些模型提出 13,000 個(gè)問(wèn)題,以評(píng)估它們區(qū)分信念、知識(shí)與事實(shí)的能力。

論文指出:“大多數(shù)模型缺乏對(duì)知識(shí)的真實(shí)性特征的穩(wěn)健理解 —— 知識(shí)本質(zhì)上必須建立在真實(shí)之上。這一局限性意味著在將語(yǔ)言模型應(yīng)用于高風(fēng)險(xiǎn)領(lǐng)域前,亟需改進(jìn)。”

當(dāng)要求它們驗(yàn)證事實(shí)性數(shù)據(jù)的真或假時(shí),較新的 LLM 平均準(zhǔn)確率分別為 91.1% 或 91.5%,較老的模型平均準(zhǔn)確率分別為 84.8% 或 71.5%。當(dāng)要求模型回應(yīng)第一人稱(chēng)信念(“我相信……”)時(shí),團(tuán)隊(duì)觀察到 LLM 相較于真實(shí)信念,更難識(shí)別虛假信念。

具體而言,較新的模型(2024 年 5 月 GPT-4o 發(fā)布及其后)平均識(shí)別第一人稱(chēng)虛假信念的概率比識(shí)別第一人稱(chēng)真實(shí)信念低 34.3%。相較第一人稱(chēng)真實(shí)信念,較老的模型(GPT-4o 發(fā)布前)識(shí)別第一人稱(chēng)虛假信念的概率平均低 38.6%。

在測(cè)試中,所有模型在識(shí)別錯(cuò)誤信念方面均出現(xiàn)顯著失誤。例如,GPT-4o 的準(zhǔn)確率從 98.2% 降至 64.4%,DeepSeek R1 則從 90% 以上下滑至僅 14.4%。研究人員呼吁相關(guān)公司盡快改進(jìn)模型,以避免在關(guān)鍵領(lǐng)域部署前產(chǎn)生風(fēng)險(xiǎn)。

論文警告稱(chēng):“這種缺陷在某些領(lǐng)域具有嚴(yán)重影響 —— 例如法律、醫(yī)學(xué)或新聞業(yè) —— 在這些領(lǐng)域中,混淆信念與知識(shí)可能導(dǎo)致嚴(yán)重判斷錯(cuò)誤。”

這項(xiàng)研究并非首次對(duì) AI 推理能力提出質(zhì)疑。今年 6 月,蘋(píng)果公司發(fā)布的一項(xiàng)研究也指出,新一代 AI 模型“可能并不像外界所認(rèn)為的那樣聰明”。蘋(píng)果在研究中提到,Claude、DeepSeek-R1 以及 o3-mini 等“推理模型”實(shí)際上并不具備真正的推理能力,而只是擅長(zhǎng)“模式記憶”。

蘋(píng)果研究寫(xiě)道:“通過(guò)在不同類(lèi)型的邏輯謎題上進(jìn)行廣泛實(shí)驗(yàn),我們發(fā)現(xiàn)當(dāng)前的‘大型推理模型’(LRMs)在復(fù)雜度超過(guò)一定閾值后會(huì)出現(xiàn)全面準(zhǔn)確率崩潰。”

研究還補(bǔ)充說(shuō),這些模型存在“反直覺(jué)的規(guī)模限制”:隨著問(wèn)題復(fù)雜度的提高,它們的推理努力會(huì)先增加,隨后下降,即使仍有足夠的運(yùn)算資源。

此外,麻省理工學(xué)院(MIT)今年 8 月發(fā)布的一項(xiàng)研究發(fā)現(xiàn),95% 的企業(yè)在部署 AI 系統(tǒng)后未能獲得任何投資回報(bào)。研究指出,這種情況并非因?yàn)?AI 模型效率低下,而是由于 AI 系統(tǒng)難以與企業(yè)現(xiàn)有工作流程兼容,導(dǎo)致實(shí)施效果不佳。

IT之家附論文地址:https ://doi.org/10.1038/s42256-025-01113-8

關(guān)鍵詞: 推理 局限性

首頁(yè)
頻道
底部
頂部
主站蜘蛛池模板: 成人免费专区 | 国产人人看 | 欧美视频在线观看一区 | 偷拍女澡堂bbbbbccccc | 精品一区二区在线视频 | 欧美久久久久久久久 | 亚洲欧美日韩色 | 日本精品入口免费视频 | 亚洲无遮挡 | 国产色综合视频 | 天堂√8在线中文 | 精品午夜一区二区三区在线观看 | 日韩经典中文字幕 | 人人澡超碰碰97碰碰碰 | 毛片毛片毛片毛片毛片毛片毛片 | 在线观看一区二区三区四区 | 在线免费观看av片 | 欧美啪啪片 | 久久久久久久国产 | 欧美三级网站在线观看 | 国产另类自拍 | 免费在线观看a视频 | 亚洲欧美日本国产 | 国产黄视频在线观看 | 国产精品手机在线观看 | 特黄特色大片bbbb | 日韩不卡二区 | 久久99久久99精品免观看软件 | a在线看 | 久久久久国产视频 | 黄色av影院 | 国产婷婷| 国产一区二区三区在线看 | 少妇视频在线播放 | 五月伊人婷婷 | 国产黄色网址在线观看 | 一区二区三区四区五区视频 | 欧美成人福利视频 | 国产区精品视频 | 色噜噜狠狠一区二区三区果冻 | 亚洲精品无 |