DeepSeek 正在透過自我改進的模型為下一次人工智慧革命做準備。

就在幾個月前，華爾街對生成式人工智慧的巨額投資面臨一個關鍵時刻，當時它出現了深度搜尋如圖所示。儘管受到嚴格審查，開源的DeepSeek專案已經證明，領先的推理型人工智慧模型並不一定需要數十億美元，只需少量資源即可實現。這標誌著我們對開發高階人工智慧模型的理解發生了重大轉變。

華為、OPPO 和 vivo 等科技巨頭迅速將其商業化，微軟、阿里巴巴和騰訊等公司也很快將其整合到各自的平台上。如今，這家聲名鵲起的中國公司正將下一個目標瞄準於能夠自我改進的人工智慧模型，這些模型採用循環「獎勵控制器」機制來實現自我提升。這一趨勢反映了企業持續致力於開發更有效率、更有效的人工智慧系統。

在預印頁中（透過彭博社來自DeepSeek和中國清華大學的研究人員提出了一種新的方法，可以透過自我改進使人工智慧模型更聰明、更有效率。其底層技術稱為初始自我批判調整（SPCT），而該方法在技術上被稱為生成式獎勵建模（GRM）。這種方法代表了人工智慧強化學習領域的一項重大進展。

簡單來說，這有點像是創建一個即時回饋迴路。人工智慧模型的改進主要透過在訓練過程中不斷擴展規模來實現，但這需要大量的人力和運算資源。 DeepSeek 提出了一個系統，其中主要的「仲裁者」會在人工智慧模型準備用戶查詢回應時，為其提供一套評價標準和原則。這種方法旨在減少訓練過程中對大量人力資源的依賴。

這套批評意見和原則會與人工智慧模型核心的既定規則以及預期結果進行比較。如果兩者高度吻合，則會產生獎勵訊號，從而有效地引導人工智慧在下一個週期中表現得更好。這種持續的評估和獎勵過程增強了模型的學習和適應能力。

幕後專家研究論文 DeepSeek 開發了一種名為 DeepSeek-GRM 的新一代自最佳化人工智慧模型。論文中列出的基準測試表明，這些模型的性能優於Google的 Gemini、Meta 的 Llama 和 OpenAI 的 GPT-4o。 DeepSeek 表示，這些新一代人工智慧模型將透過開源管道發布。這種開放性承諾有望加速人工智慧領域的創新步伐。

自我改進的人工智慧：這有可能嗎？

人工智慧能夠自我改進這個概念引發了熱烈而又充滿爭議的討論。谷歌前執行長埃里克·施密特曾表示，我們或許需要一個「開關按鈕」來控制這類系統。運氣施密特說：「當一個系統能夠自主改進自身時，我們應該認真考慮斷開它的電源。」自我改進的人工智慧系統被認為是人工智慧領域最重要的進展之一。

自我改進型人工智慧的概念並非全新。這種超級智慧機器能夠創造出更優秀的機器，這種想法由來已久。返回事實上，它是I.J. Goode於1965年引入數學界的。 2007年，人工智慧專家Eliezer Yudkowski提出了關於…的理論。種子人工智慧它是一種「旨在進行自我理解、自我修改和迭代自我改進」的人工智慧。

2024年，日本公司Sakana AI提供了詳細資料。概念人工智慧的世界圍繞著一個能夠從頭到尾指導一篇研究論文整個撰寫過程的系統而展開。紙今年三月，Meta 專家發表的一項研究揭示了自獎勵語言模型，其中人工智慧本身充當評判者，在訓練過程中給予獎勵。這種向自學習人工智慧系統發展的趨勢，標誌著人工智慧發展取得了重大飛躍。

微軟執行長薩蒂亞·納德拉表示，OpenAI 的 o1 模型正在優化人工智慧的開發，並已進入遞歸階段：「我們正在使用人工智慧來建立人工智慧工具，從而建立更好的人工智慧」。 pic.twitter.com/IHuFIpQl2C

— Tsarathustra (@tsarnick) 2024 年 10 月 21 日

Meta公司對其Llama 2人工智慧模型進行了內部測試，該模型採用了創新的自我獎勵技術，結果表明其性能優於Anthropic公司的Claude 2、谷歌的Gemini Pro以及OpenAI的GPT-4等競爭對手。 Anthropic是一家亞馬遜投資的公司。提供的詳細信息她稱之為獎勵操縱，這是一個不可預測的過程，「模型直接修改自身的獎勵機制」。

谷歌的想法與此相差不遠。發表在某期刊上的一項研究… 性質本月初，GoogleDeepMind的專家展示了一款名為Dreamer的人工智慧演算法，能夠自我改進，並以遊戲《我的世界》為例進行了實踐。

作品 IBM專家他們的方法稱為歸納閉包訓練，利用人工智慧模型自身的回應，並將其與訓練資料進行比對，從而改善自身。然而，這種方法的前提並非完全正面。

研究表明，當人工智慧模型嘗試使用自行生成的合成資料進行訓練時，會引入一種通常被稱為「模型崩潰」的缺陷。 DeepSeek 將如何實現這一理念，以及它能否比西方競爭對手更經濟高效地做到這一點，都值得我們關注。

深度搜尋