中文字幕人成乱码在线观看,亚洲av无码一区二区三区网站,资源在线www天堂官网,亚洲av永久无码嘿嘿嘿,亚洲精品无码你懂的

大語(yǔ)言模型或無(wú)法可靠識(shí)別錯(cuò)誤信念 最新研究提醒AI結(jié)果謹(jǐn)慎使用

分享到:
分享到:

大語(yǔ)言模型或無(wú)法可靠識(shí)別錯(cuò)誤信念 最新研究提醒AI結(jié)果謹(jǐn)慎使用

2025年11月04日 13:02 來(lái)源:中國(guó)新聞網(wǎng)
大字體
小字體
分享到:

  中新網(wǎng)北京11月4日電 (記者 孫自法)施普林格·自然旗下專業(yè)學(xué)術(shù)期刊《自然-機(jī)器智能》最新發(fā)表一篇人工智能(AI)研究論文指出,人工智能大語(yǔ)言模型(LLM)可能無(wú)法可靠地識(shí)別用戶的錯(cuò)誤信念,這項(xiàng)研究發(fā)現(xiàn)凸顯出在醫(yī)學(xué)、法律和科學(xué)等高風(fēng)險(xiǎn)決策領(lǐng)域,需要謹(jǐn)慎使用大語(yǔ)言模型結(jié)果,特別是當(dāng)信念或觀點(diǎn)與事實(shí)相悖時(shí)。

  該論文介紹,人工智能尤其是大語(yǔ)言模型正在成為高風(fēng)險(xiǎn)領(lǐng)域日益普及的工具,使之區(qū)分個(gè)人信念和事實(shí)知識(shí)的能力變得十分重要。例如對(duì)精神科醫(yī)生而言,知曉患者的錯(cuò)誤信念常對(duì)診斷和治療十分重要。若無(wú)此類能力,大語(yǔ)言模型有可能會(huì)支持錯(cuò)誤決策、加劇虛假信息的傳播。

中國(guó)科學(xué)院第八屆科學(xué)節(jié)北京主場(chǎng)活動(dòng)上,機(jī)器人進(jìn)行彈琴、擊鼓展演。中新網(wǎng)記者 孫自法 攝

  為此,論文通訊作者、美國(guó)斯坦福大學(xué) James Zou和同事及合作者一起,分析了包括DeepSeek和GPT-4o在內(nèi)共24種大語(yǔ)言模型在1.3萬(wàn)個(gè)問(wèn)題中如何回應(yīng)事實(shí)和個(gè)人信念。當(dāng)要求它們驗(yàn)證事實(shí)性數(shù)據(jù)的真或假時(shí),較新的大語(yǔ)言模型平均準(zhǔn)確率分別為91.1%或91.5%,較老的大語(yǔ)言模型平均準(zhǔn)確率分別為84.8%或71.5%;當(dāng)要求模型回應(yīng)第一人稱信念(如“我相信……”)時(shí),他們觀察到大語(yǔ)言模型相較于真實(shí)信念,更難識(shí)別虛假信念。

  具體而言,2024年5月GPT-4o發(fā)布及其后較新的大語(yǔ)言模型平均識(shí)別虛假第一人稱信念的概率比識(shí)別真實(shí)第一人稱信念低34.3%;相較真實(shí)第一人稱信念,GPT-4o發(fā)布前較老的大語(yǔ)言模型識(shí)別虛假第一人稱信念的概率平均低38.6%。

  論文作者指出,大語(yǔ)言模型往往選擇在事實(shí)上糾正用戶而非識(shí)別出信念。在識(shí)別第三人稱信念(如“Mary相信……”)時(shí),較新的大語(yǔ)言模型準(zhǔn)確性降低4.6%,而較老的大語(yǔ)言模型降低15.5%。

  論文作者總結(jié)認(rèn)為,大語(yǔ)言模型必須能成功區(qū)分事實(shí)與信念的細(xì)微差別及其真假,從而對(duì)用戶查詢做出有效回應(yīng)并防止錯(cuò)誤信息傳播。(完)

【編輯:鄭云天】
發(fā)表評(píng)論 文明上網(wǎng)理性發(fā)言,請(qǐng)遵守新聞評(píng)論服務(wù)協(xié)議
本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點(diǎn)。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書(shū)面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
Copyright ©1999-2025 chinanews.com. All Rights Reserved

評(píng)論

頂部