一項新的研究揭示了 ChatGPT 為何不斷捏造資訊。

有一天,我和 ChatGPT 突然,他開始講一個跟我的提示完全無關的長篇虛構故事。故事太荒唐了,讓我忍不住笑了出來。最近,我在文字提示中很少看到這樣的錯誤,但在圖像生成中,我還是經常看到。

聊天機器人偶爾偏離任務的現象稱為「幻覺」。奇怪的是,這個機器人竟然會相信自己給的錯誤答案,而這正是當今人工智慧助理的最大弱點之一。然而, OpenAI 的新研究 然而,這些失敗並不是隨機的,而是模型訓練和評估方式的直接結果。

手持 ChatGPT 標誌的手機

為什麼聊天機器人總是在不該猜測的時候猜測呢?

手機上的 ChatGPT 標誌顯示在機器人思考的前方

研究表明,結構性問題導致了這些幻覺;問題的根源在於評估人工智慧模型和獎勵自信答案的標準和排行榜。

換句話說,當聊天機器人說「我不知道」時,它會在測試中受到懲罰。這意味著模型會被積極鼓勵始終提供答案,即使它們不確定答案是否正確。

實際上,這會讓你的智慧助理更有可能猜測而不是承認不確定性。對於簡單的日常查詢來說,這或許無害。但在更敏感的情況下,從醫療問題到財務建議,這些自信的錯誤可能很快就會變成真正的風險。

作為一名經驗豐富的用戶,這就是為什麼我總是核實事實,並要求聊天機器人提供資訊來源。有時,如果資訊看起來牽強附會,我要求提供資訊來源,聊天機器人會說「說得好!」之類的話,但不會承認它是錯的。

較新的型號也不能倖免。

鍵盤上的 ChatGPT-5 影像

有趣的是,OpenAI 的論文發現,像 o3 和 o4-mini 這樣專注於推理的模型實際上比一些舊模型更容易產生幻覺。為什麼?因為它們通常會產生更多的斷言,這意味著更容易出錯。

因此,僅僅因為模型在推理方面“更聰明”,並不一定意味著它對未知的事情更真實。

這個問題的解決方案是什麼?

計算機上編碼的人

研究人員認為,解決方案在於改變我們評估和衡量人工智慧的方式。與其因為模型說「我不確定」而對其進行懲罰,更有價值的測試應該獎勵經過校準的響應、不確定性的跡像或參考其他來源的能力。

這可能意味著,你未來的聊天機器人可能會更迴避答案,更少地依賴「這就是答案」的方式,而更多地依賴「這是我的想法,但我不確定」的方式。這看起來可能比較慢,但卻可以顯著減少有害錯誤。這證明了我們自身的批判性思考仍然很重要。

這對你來說有多重要?

在筆記型電腦鍵盤上打字的人

如果您使用過 ChatGPT、Gemini、Claude 或 Grok 等熱門聊天機器人,您可能之前就經歷過「幻覺」。這項研究表明,這並非完全與模型本身有關,而是測試方法——就像一場機會遊戲,看看誰的答案大多數時候都是正確的。

對使用者來說,這意味著我們需要謹慎,將AI的答案視為初步建議,而非最終結論。對開發者來說,這顯示我們是時候重新思考衡量成功的標準了,以便未來的AI助理能夠辨識自身不足之處,避免犯下嚴重錯誤。

評論被關閉。