一項新的研究揭示了 ChatGPT 為何不斷捏造資訊。

有一天，我和 ChatGPT 突然，他開始講一個跟我的提示完全無關的長篇虛構故事。故事太荒唐了，讓我忍不住笑了出來。最近，我在文字提示中很少看到這樣的錯誤，但在圖像生成中，我還是經常看到。

為什麼聊天機器人總是在不該猜測的時候猜測呢？

研究表明，結構性問題導致了這些幻覺；問題的根源在於評估人工智慧模型和獎勵自信答案的標準和排行榜。

換句話說，當聊天機器人說「我不知道」時，它會在測試中受到懲罰。這意味著模型會被積極鼓勵始終提供答案，即使它們不確定答案是否正確。

實際上，這會讓你的智慧助理更有可能猜測而不是承認不確定性。對於簡單的日常查詢來說，這或許無害。但在更敏感的情況下，從醫療問題到財務建議，這些自信的錯誤可能很快就會變成真正的風險。

作為一名經驗豐富的用戶，這就是為什麼我總是核實事實，並要求聊天機器人提供資訊來源。有時，如果資訊看起來牽強附會，我要求提供資訊來源，聊天機器人會說「說得好！」之類的話，但不會承認它是錯的。

有趣的是，OpenAI 的論文發現，像 o3 和 o4-mini 這樣專注於推理的模型實際上比一些舊模型更容易產生幻覺。為什麼？因為它們通常會產生更多的斷言，這意味著更容易出錯。

因此，僅僅因為模型在推理方面“更聰明”，並不一定意味著它對未知的事情更真實。

研究人員認為，解決方案在於改變我們評估和衡量人工智慧的方式。與其因為模型說「我不確定」而對其進行懲罰，更有價值的測試應該獎勵經過校準的響應、不確定性的跡像或參考其他來源的能力。

這可能意味著，你未來的聊天機器人可能會更迴避答案，更少地依賴「這就是答案」的方式，而更多地依賴「這是我的想法，但我不確定」的方式。這看起來可能比較慢，但卻可以顯著減少有害錯誤。這證明了我們自身的批判性思考仍然很重要。

如果您使用過 ChatGPT、Gemini、Claude 或 Grok 等熱門聊天機器人，您可能之前就經歷過「幻覺」。這項研究表明，這並非完全與模型本身有關，而是測試方法——就像一場機會遊戲，看看誰的答案大多數時候都是正確的。

對使用者來說，這意味著我們需要謹慎，將AI的答案視為初步建議，而非最終結論。對開發者來說，這顯示我們是時候重新思考衡量成功的標準了，以便未來的AI助理能夠辨識自身不足之處，避免犯下嚴重錯誤。