OpenAI 為 o3-mini 推出詳細的思維追蹤技術,以應對 DeepSeek 競爭

OpenAI 正在揭露其最新思維模型 o3-mini 的更多推理過程細節。這一變化於 OpenAI 在 X 平台上的帳戶同時,該人工智慧實驗室面臨來自 DeepSeek-R1 越來越大的壓力,DeepSeek-R1 是一個完整的展示其思維程式碼的開源模型。

像 o3 和 R1 這樣的模型會經歷一個漫長的「思路鏈」(CoT)過程,在這個過程中,它們會產生額外的程式碼來分解問題,思考並測試不同的答案,最終得出最終的解決方案。先前,OpenAI 的推理模型會隱藏其思路鏈,僅提供推理步驟的高階概述。這使得使用者和開發者難以理解模型的推理邏輯,並難以修改指令和提示以引導模型朝著正確的方向發展。 

OpenAI 認為這種思考過程是一種競爭優勢,因此將其隱藏起來,以防止競爭對手抄襲來訓練自己的模型。然而,隨著 R1 和其他開源模型將完整的思考過程公之於眾,這種缺乏透明度反而成了 OpenAI 的劣勢。

新版 o3-mini 展現了更細緻的思考過程。雖然我們仍然看不到最初的符號,但它讓思考過程更加清晰。

為什麼這對應用程式來說很重要?

在我們先前對 O1 和 R1 模型的實驗中,我們發現 O1 在解決資料分析和推理問題方面表現略好。然而,一個主要的限制在於我們無法知道該模型出錯的原因——它在處理從網路檢索到的混亂現實世界資料時經常出錯。另一方面,R1 的思考過程使我們能夠解決問題並修改提示以改善推理。

例如,在我們的一項實驗中,兩個模型都未能給出正確答案。但由於 R1 細緻的思考過程,我們發現問題並非出在模型本身,而是出在從網路收集資訊的檢索階段。在其他實驗中,R1 的思考過程在無法解析我們提供的資訊時能夠提供提示,而 O1 則只能提供一個非常粗略的概述,讓我們了解它如何建構自己的答案。

我們測試了新的 o3-mini 模型,該模型是先前對 o1 進行實驗的變體。我們向模型輸入了一個文字文件,其中包含 2024 年 1 月至 2025 年 1 月期間各種股票的價格。該文件內容雜亂且未格式化,混合了純文字和 HTML 元素。然後,我們要求模型計算一個投資組合的價值,該投資組合在 2024 年 1 月至 2025 年 1 月期間每月第一天投資 140 美元購買七大豪門股票,並均勻分佈在所有股票上(我們在題目中使用了“七大豪門”一詞,以增加難度)。

o3-mini 的思考過程這次真的幫了大忙。首先,模型思考了什麼是 Mag 7,過濾數據只保留相關股票(為了增加問題的挑戰性,我們在數據中添加了一些非 Mag 7 的股票),計算了每隻股票的每月投資額,並進行了最終計算得出了正確答案(在我們輸入模型的數據中,該投資組合在最後記錄的時間點價值約為 2200 美元)。

由於 OpenAI 仍對許多細節保密,因此需要更多測試來確定新演算法的極限。但在我們的初步測試中,新格式似乎更有用。

這對 OpenAI 意味著什麼?

DeepSeek-R1 發佈時,比較 OpenAI 的推理模型有三個明顯的優點:開源、低成本、透明。

此後,OpenAI 成功縮小了差距。 o1 每百萬代幣的成本為 60 美元,而 o3-mini 的成本僅為 4.40 美元,在許多基準測試中均優於 o1。 R1 在美國供應商那裡每百萬代幣的成本約為 7 至 8 美元。 (DeepSeek 在其自己的伺服器上提供 R1 模型,價格為每百萬代幣 2.19 美元,但由於其託管在中國,許多組織將無法使用它。)

隨著 CoT 輸出的新變化,OpenAI 已經能夠在一定程度上克服透明度問題。

OpenAI 將如何將其模型開源還有待觀察。自發布以來,R1 已被眾多不同的實驗室和公司改編、分叉和託管,這有可能使其成為企業首選的思維模型。 OpenAI 執行長 Sam Altman 最近承認,他在開源辯論中「站在了歷史的錯誤一邊」。我們拭目以待,看看這種認識在 OpenAI 未來的版本中會如何體現。

評論被關閉。