一項新的研究揭示了 ChatGPT 為何不斷捏造資訊。
有一天,我和 ChatGPT 突然,他開始講一個跟我的提示完全無關的長篇虛構故事。故事太荒唐了,讓我忍不住笑了出來。最近,我在文字提示中很少看到這樣的錯誤,但在圖像生成中,我還是經常看到。
為什麼聊天機器人總是在不該猜測的時候猜測呢?

研究表明,結構性問題導致了這些幻覺;問題的根源在於評估人工智慧模型和獎勵自信答案的標準和排行榜。
換句話說,當聊天機器人說「我不知道」時,它會在測試中受到懲罰。這意味著模型會被積極鼓勵始終提供答案,即使它們不確定答案是否正確。
實際上,這會讓你的智慧助理更有可能猜測而不是承認不確定性。對於簡單的日常查詢來說,這或許無害。但在更敏感的情況下,從醫療問題到財務建議,這些自信的錯誤可能很快就會變成真正的風險。
作為一名經驗豐富的用戶,這就是為什麼我總是核實事實,並要求聊天機器人提供資訊來源。有時,如果資訊看起來牽強附會,我要求提供資訊來源,聊天機器人會說「說得好!」之類的話,但不會承認它是錯的。
較新的型號也不能倖免。

有趣的是,OpenAI 的論文發現,像 o3 和 o4-mini 這樣專注於推理的模型實際上比一些舊模型更容易產生幻覺。為什麼?因為它們通常會產生更多的斷言,這意味著更容易出錯。
因此,僅僅因為模型在推理方面“更聰明”,並不一定意味著它對未知的事情更真實。
這個問題的解決方案是什麼?

研究人員認為,解決方案在於改變我們評估和衡量人工智慧的方式。與其因為模型說「我不確定」而對其進行懲罰,更有價值的測試應該獎勵經過校準的響應、不確定性的跡像或參考其他來源的能力。
這可能意味著,你未來的聊天機器人可能會更迴避答案,更少地依賴「這就是答案」的方式,而更多地依賴「這是我的想法,但我不確定」的方式。這看起來可能比較慢,但卻可以顯著減少有害錯誤。這證明了我們自身的批判性思考仍然很重要。
這對你來說有多重要?

如果您使用過 ChatGPT、Gemini、Claude 或 Grok 等熱門聊天機器人,您可能之前就經歷過「幻覺」。這項研究表明,這並非完全與模型本身有關,而是測試方法——就像一場機會遊戲,看看誰的答案大多數時候都是正確的。
對使用者來說,這意味著我們需要謹慎,將AI的答案視為初步建議,而非最終結論。對開發者來說,這顯示我們是時候重新思考衡量成功的標準了,以便未來的AI助理能夠辨識自身不足之處,避免犯下嚴重錯誤。

評論被關閉。