OpenAI 為 o3-mini 推出詳細的思維追蹤技術，以應對 DeepSeek 競爭

OpenAI 正在揭露其最新思維模型 o3-mini 的更多推理過程細節。這一變化於 OpenAI 在 X 平台上的帳戶同時，該人工智慧實驗室面臨來自 DeepSeek-R1 越來越大的壓力，DeepSeek-R1 是一個完整的展示其思維程式碼的開源模型。

像 o3 和 R1 這樣的模型會經歷一個漫長的「思路鏈」（CoT）過程，在這個過程中，它們會產生額外的程式碼來分解問題，思考並測試不同的答案，最終得出最終的解決方案。先前，OpenAI 的推理模型會隱藏其思路鏈，僅提供推理步驟的高階概述。這使得使用者和開發者難以理解模型的推理邏輯，並難以修改指令和提示以引導模型朝著正確的方向發展。

OpenAI 認為這種思考過程是一種競爭優勢，因此將其隱藏起來，以防止競爭對手抄襲來訓練自己的模型。然而，隨著 R1 和其他開源模型將完整的思考過程公之於眾，這種缺乏透明度反而成了 OpenAI 的劣勢。

新版 o3-mini 展現了更細緻的思考過程。雖然我們仍然看不到最初的符號，但它讓思考過程更加清晰。

為什麼這對應用程式來說很重要？

在我們先前對 O1 和 R1 模型的實驗中，我們發現 O1 在解決資料分析和推理問題方面表現略好。然而，一個主要的限制在於我們無法知道該模型出錯的原因——它在處理從網路檢索到的混亂現實世界資料時經常出錯。另一方面，R1 的思考過程使我們能夠解決問題並修改提示以改善推理。

例如，在我們的一項實驗中，兩個模型都未能給出正確答案。但由於 R1 細緻的思考過程，我們發現問題並非出在模型本身，而是出在從網路收集資訊的檢索階段。在其他實驗中，R1 的思考過程在無法解析我們提供的資訊時能夠提供提示，而 O1 則只能提供一個非常粗略的概述，讓我們了解它如何建構自己的答案。

我們測試了新的 o3-mini 模型，該模型是先前對 o1 進行實驗的變體。我們向模型輸入了一個文字文件，其中包含 2024 年 1 月至 2025 年 1 月期間各種股票的價格。該文件內容雜亂且未格式化，混合了純文字和 HTML 元素。然後，我們要求模型計算一個投資組合的價值，該投資組合在 2024 年 1 月至 2025 年 1 月期間每月第一天投資 140 美元購買七大豪門股票，並均勻分佈在所有股票上（我們在題目中使用了“七大豪門”一詞，以增加難度）。

o3-mini 的思考過程這次真的幫了大忙。首先，模型思考了什麼是 Mag 7，過濾數據只保留相關股票（為了增加問題的挑戰性，我們在數據中添加了一些非 Mag 7 的股票），計算了每隻股票的每月投資額，並進行了最終計算得出了正確答案（在我們輸入模型的數據中，該投資組合在最後記錄的時間點價值約為 2200 美元）。

由於 OpenAI 仍對許多細節保密，因此需要更多測試來確定新演算法的極限。但在我們的初步測試中，新格式似乎更有用。

這對 OpenAI 意味著什麼？

DeepSeek-R1 發佈時，比較 OpenAI 的推理模型有三個明顯的優點：開源、低成本、透明。

此後，OpenAI 成功縮小了差距。 o1 每百萬代幣的成本為 60 美元，而 o3-mini 的成本僅為 4.40 美元，在許多基準測試中均優於 o1。 R1 在美國供應商那裡每百萬代幣的成本約為 7 至 8 美元。（DeepSeek 在其自己的伺服器上提供 R1 模型，價格為每百萬代幣 2.19 美元，但由於其託管在中國，許多組織將無法使用它。）

隨著 CoT 輸出的新變化，OpenAI 已經能夠在一定程度上克服透明度問題。

OpenAI 將如何將其模型開源還有待觀察。自發布以來，R1 已被眾多不同的實驗室和公司改編、分叉和託管，這有可能使其成為企業首選的思維模型。 OpenAI 執行長 Sam Altman 最近承認，他在開源辯論中「站在了歷史的錯誤一邊」。我們拭目以待，看看這種認識在 OpenAI 未來的版本中會如何體現。