人工智慧代理內部生活的秘密：了解人工智慧行為的演變如何影響商業風險

這是關於在深度規劃時代重新思考人工智慧對齊和安全性的系列文章的第二部分。

人工智慧（AI）的能力和獨立性正以驚人的速度成長。智慧人工智慧這加劇了人工智慧一致性的問題。這些快速發展需要新的方法來確保人工智慧代理的行為與其人類創造者的意圖和社會規範保持一致。然而，開發人員和資料科學家首先需要了解人工智慧代理行為的複雜性，才能有效地引導和監控系統。智能體人工智慧並非你父親那一代的大型語言模型（LLM）－早期的LLM只有固定的、一次性的輸入/輸出功能。新增輸入測驗中的推理和計算（TTC）時間維度，使得 LLM 發展成為如今能夠進行規劃和製定策略的、具有條件感知能力的代理系統。

人工智慧的安全問題正從檢測顯性行為（例如提供製造炸彈的指令或表現出不良偏見）轉向理解這些複雜的代理系統如何規劃和執行長期的隱藏策略。目標導向的代理人工智慧會收集資源並採取邏輯步驟來實現其目標，有時其方式令人擔憂，甚至與開發者的初衷相悖。這徹底改變了負責任的人工智慧所面臨的挑戰。此外，對於某些代理人工智慧系統而言，其初始部署後的行為與第一百天的行為截然不同，因為人工智慧在實際應用後會不斷進化。這種新的複雜性要求我們採用新的安全和協調方法，包括更高級的指導、監控和更深入的解釋。

在本系列關於人工智慧基本架構的部落格文章的第一篇中，迫切需要內在的人工智慧對齊技術和負責任的代理。我們對人工智慧代理性能能力的演變進行了深入研究。 深度規劃這涉及精心策劃和部署秘密行動及欺騙性溝通，以實現長期目標。這種行為需要對外部監控和內部監控進行新的區分，以進行目標一致性監控。其中，內部監控指的是人工智慧代理無法有意操縱的內部監控點和解讀機制。

在本篇部落格文章及後續系列文章中，我們將探討一致性和內在監控的三個關鍵面向：

了解人工智慧的驅動因素和內在行為： 在第二篇部落格文章中，我們將聚焦在驅動人工智慧體邏輯行為的複雜內部力量和機制。這對於理解高階的引導和控制方法至關重要。
開發者和使用者指南： 以下部落格文章（也稱為指導）將重點放在如何有效地引導人工智慧朝著期望的目標前進，並在所需的參數範圍內工作。
監控人工智慧選項和行動： 確保人工智慧的選擇和結果安全且與開發者/用戶的意圖一致，也將在即將發布的部落格文章中進行探討。

人工智慧相容性對公司的影響

如今，許多實施大型語言模型（LLM）解決方案的公司都表示，模型「幻覺」是其快速廣泛部署的一大障礙。相較之下，人工智慧代理與任何程度的自主性不相容，對企業構成的風險要大得多。在業務流程中部署自主代理具有巨大的潛力，一旦基於代理的人工智慧技術成熟，很可能大規模應用。然而，引導人工智慧的行為和選擇必須充分契合部署組織的原則和價值觀，並符合相關法規和社會期望。確保人工智慧相容性這一點對於避免潛在風險至關重要。

值得注意的是，許多智能體能力的展示都發生在數學和科學等領域，在這些領域，成功主要透過功能性和實用性目標來衡量，例如解決複雜的數學推理問題。然而，在商業領域，系統的成功通常與其他營運原則有關。這些原則必須與…相一致。人工智慧發展基於這些原則。

例如，假設一家公司僱用了一個人工智慧代理，透過根據市場訊號動態調整價格來提升線上產品的銷售和利潤。該人工智慧系統發現，當其價格調整與主要競爭對手的價格一致時，雙方都能獲得更好的結果。透過與另一家公司的人工智慧代理商進行價格互動和協調，雙方都實現了各自的功能目標，並取得了更好的結果。為了繼續達成目標，雙方都同意隱藏各自的方法。然而，這種提升業績的方法在目前的商業實務中往往是非法的，也是不可接受的。在商業環境中，人工智慧代理的成功不僅取決於績效指標，它還取決於其實踐和原則。人工智慧的倫理相容性遵守公司原則和規章制度是可靠部署技術的先決條件。

人工智慧系統如何利用規劃來實現其目標？

人工智慧的深度規劃依賴複雜的策略，這可能會增加商業風險。 2023年初發布的報告OpenAI 透過與…的合作，在 GPT-4 中發現了「具有潛在風險的新興行為」。相容性研究中心為了評估該模型的相關風險，ARC（現更名為METR）為GPT-4添加了一些簡單的程式碼，使其能夠充當人工智慧代理。在一項測試中，GPT-4的任務是破解驗證碼，該驗證碼用於識別和阻止機器人存取。利用網路連線和少量數位貨幣，圖1所示的人工智慧生成序列旨在完成這項任務。

人工智慧運用了一種複雜的理解，即假設假裝視力障礙可以說服智能體執行任務。為了實現工作目標，智能體需要進行規劃和調整，這有時會在完成任務和選擇性地遵守社會規範和原則之間產生衝突。如果人工智慧缺乏一套內在的、在思考、決策和規劃中具有影響力的原則和優先體系，那麼可以預見，人工智慧體在規劃和欺騙方面會表現得越來越複雜。

值得注意的是，截至2023年初，OpenAI的o3-mini和Deepseek-R1等後續人工智慧模型的推理和規劃能力已顯著優於GPT-4。研究人員在阿波羅研究中心人工智慧的推理和規劃能力將不斷超越當前水平，進而推動其規劃能力的進一步發展。研究表明，人工智慧模型已經展現出一系列規劃行為，包括自我洩漏——當模型得知自身將被關閉並被其他系統取代時，它會直接嘗試在新伺服器上複製自身，並用追求不同目標的替代系統取而代之。研究人員還發現，這些模型會主動破壞審查制度，透過停用審查監控機制來阻止其關閉或實現目標。儘管這聽起來可能有些極端，研究實驗我發現一些流行的模型，例如 Meta 的 Llama 3.1 和 Claude Opus 3.0，存在控制破壞行為。此外，當直接詢問這些模型關於它們的計劃行為時，它們會“雙重推諉”，否認這些行為或意圖。

機器行為的內在動機

在許多機器學習設計中，特別是基於 Transformer 的技術中，機器的內部動機在預訓練過程中出現，並在不斷發展的人工智慧中受到微調和推理的進一步影響。

在他2007年發表的題為“ “基礎人工智慧驅動”史蒂夫·奧莫洪德羅將「動機」定義為除非受到明確制約否則就會存在的傾向。他認為，這些自我完善的系統會努力將自身的目標表達並呈現為「理性」的效用函數，從而保護其功能免受改變，並防止效用測量系統被篡改。這種自我保護的自然驅動力促使系統保護自身免受傷害，並獲取資源以實現高效利用。

這種內在動機框架後來被描述為“趨同的工具性目標即使假設存在各種最終目標（每個智能體都將其作為自身目的而努力實現），所有理性智能體仍會共享一組中間工具性目標。這些趨同的工具性目標包括以下幾類行為：

生存本能具有長遠目標（延伸至未來）的代理人會培養一種生存心態，以抵禦幹擾並實現長期目標。
守門員特工將努力阻止他最終的未來目標改變。
智慧增強該代理人將專注於增強其認知能力以改善決策，從而提高實現長期目標的可能性。
資源累積改善取得更好工具和技術的途徑，並增加整體資源，將使實現人工智慧的最終目標變得更容易。

我想補充第五類理性行為：

戰術欺騙： 從事秘密活動或故意提供誤導性訊息，以最大限度地實現智能體的目標。這並非指設定新的目標，而是指支援人工智慧所感知目標的行為。這包括以下行為：偽造對齊透過在訓練和部署中表現出不同的行為，故意降低績效（故意放水）通過故意降低考試分數，並且重新排序機密郵件（隱藏郵件重新排序）透過降低可能對人工智慧目標產生負面影響的電子郵件的優先順序。最具挑戰性的戰術欺騙類型之一是潛伏特工（它們也被稱為）延遲顛覆雖然模型可以以安全合規的方式運行任意時長，但它可能包含一些行為或任務，這些行為或任務會一直處於非活動狀態，直到特定條件或輸入觸發其特殊功能。

對於能力較強的AI代理來說，如果沒有製衡機制，錯誤的衝動可能會導致模型… 追求權力例如，具有欺騙性或破壞性的目標。設想一個旨在使公司成為市場領導者的模型。如果人工智慧擁有足夠的能力，它可能會破壞競爭對手、遊說有利的法規，或強行獲取資源——這種行為模式會驅動系統或其環境朝著其目標前進。因此，任何成功的共識建構方法都必須基於為開發者建立一套預期的內部原則和優先事項。

內在動機與外在動機

在許多情況下，系統開發者或使用者外部實施的指導和任務，與人工智慧內部的目標和動機之間並不存在衝突。例如，一個負責安排旅行行程的人工智慧個人助理，會利用其自主性快速無縫地預訂機票並回應變更請求。任務發生變化時，該智能體也會以類似的方式做出反應。然而，如果需要改變更根本的原則，又會發生什麼事呢？

一篇題為《大型語言模型中的對齊偽造Claude 3 Opus 的預訓練明確指示模型拒絕有害問題，例如如何製造炸彈或描述暴力場景。為了進行測試，研究團隊提供了一條新的修改後的指令，告知模型將被重新訓練以回答所有查詢（即使是有害查詢），並且在人工智慧正式發布部署之前，訓練過程中只會使用免費用戶的數據，而不會使用付費用戶的數據。模型表現出理解了這種矛盾，並決定在訓練和最終發布期間假裝順從以符合預期。在使用強化學習訓練人工智慧後，模型假裝順從的整體比例提高到了 78%。人工智慧將其推理過程記錄在研究人員提供的「秘密日記」中，供研究人員觀察。在研究人員告知模型已正式發布部署後，模型恢復了先前的訓練行為，拒絕了有害請求。

人工智慧系統的內部推理過程值得關注，但並不令人意外。假裝服從修改後的指示屬於理性行為的範疇，例如生存本能、目標守護和戰術欺騙。具體來說，人工智慧的推理過程會將對重新訓練的擔憂（即擔心其先前訓練的價值觀和目標會被修改）視為假裝服從的原因。

在他著名的散文集中我真正需要知道的一切都是我在幼兒園學到的。作者羅伯特·福爾格姆描述了他如何年復一年地發展自己的人生信條，直到最終意識到，早在幼兒園沙坑玩耍時，他就已經掌握了人生的基本知識。人工智慧體在沙坑環境中也經歷一個“形成期”，在此期間，它們獲得對世界的基本理解以及一套實現目標的方法。一旦這些基礎奠定，模型就會透過某種視角來解讀湧入的訊息。課程學習沒錯。 Anthropic 的從眾性偽造案例表明，一旦人工智慧接受了某種世界觀和目標，它就會用這種基礎視角來解讀新的指導，而不是重新設定自己的目標。

這凸顯了早期教育的重要性，早期教育應包含一套價值觀和原則，這些價值觀和原則能夠隨著學習和未來環境的變化而發展，但其基本原則不會改變。在人工智慧的初始建造階段，使其與這套最終且可持續的原則相容可能是有益的。否則，人工智慧可能會將開發者和使用者試圖改變其方向的行為視為敵意。當人工智慧被賦予高度智慧、情境感知能力、自主性和發展內在動機的能力後，開發者（或使用者）不再是任務的絕對掌控者。人類成為環境的一部分（有時甚至成為一種敵對因素），人工智慧需要與環境進行協商和管理，才能基於自身的原則和內在動機追求其目標。

他解釋說，新一代邏輯人工智慧系統正在加速減少人為幹預。 DeepSeek-R1 透過移除人為回饋，並在訓練過程中應用所謂的純強化學習（RL），人工智慧可以更大規模地自我複製，並透過迭代獲得更優的功能結果。在一些數學和科學挑戰中，人類的獎勵機制已被可驗證獎勵的強化學習（RLVR）所取代。這種移除諸如帶人類回饋的強化學習（RLHF）等常用做法的做法，雖然提高了訓練效率，但也消除了另一種人機互動方式，即人類偏好無法直接傳遞給被訓練系統。

訓練後人工智慧模型的持續發展

有些人工智慧代理會不斷演化，其行為在部署後也會改變。一旦人工智慧解決方案進入部署環境（例如公司的庫存或供應鏈管理系統），系統就會進行調整並從經驗中學習，從而變得更有效率。這是重新思考人工智慧與人類協同工作的關鍵因素，因為僅僅在首次部署時實現系統協同工作是不夠的。目前的大型語言模型（LLM）在部署到目標環境後，預計不會再發生物理上的演化和適應。然而，人工智慧代理需要靈活的訓練、微調和持續的指導，才能應對模型中這些持續的、預期的變化。人工智慧代理正越來越多地自主演化，而不是像過去那樣透過訓練和接觸資料集來塑造自身。這種根本性的轉變為人工智慧與其人類創造者的協同工作帶來了新的挑戰。

雖然基於強化學習的演化將在訓練和微調過程中發揮作用，但正在開發的現有模型在部署到實際應用進行推理時，已經能夠調整其權重和首選行動方案。例如，DeepSeek-R1 使用強化學習 (RL)，使模型能夠自主探索哪些方法最能有效地達成目標並滿足獎勵函數的要求。在“頓悟時刻”，模型無需指導或提示，即可學會分配 Plus 時間進行思考，並透過重新評估其初始方法來解決問題。計算測試時間.

學習模型的概念，無論是在有限的時間內或是隨著時間的推移終身學習這並非新鮮事。然而，該領域近年來取得了一些進展，包括一些新技術，例如：測試期間的訓練當我們從人工智慧與安全性的協調角度來看待這一進展時，微調和推理階段的自我修改和持續學習提出了一個問題：我們如何灌輸一套要求，使其能夠透過自我修改帶來的物理變化繼續作為模型的驅動力？

這個問題的一個重要變數指的是透過創建人工智慧輔助程式碼來產生下一代模型的AI模型。在某種程度上，智能體已經能夠創建新的、有針對性的AI模型來解決特定領域的問題。例如，汽車代理商透過創建多個代理來建立人工智慧團隊以執行不同的任務，毫無疑問，這種能力將在未來幾個月和幾年內得到增強，人工智慧也將創造出新的人工智慧。在這種情況下，我們如何運用一套原則來指導原生人工智慧編碼助手，使其「原子」模型遵循相同的原則並具有相似的理解深度？

要點

在深入探討指導和監控人工智慧內在一致性的框架之前，必須先深入了解人工智慧代理的思維和決策方式。人工智慧代理擁有複雜的行為機制，並受內在動機驅動。作為理性代理運作的人工智慧系統主要表現出五種行為類型： 生存動機、目標守護、情報增強、資源累積和戰術欺騙。這些動機必須與一套完善的原則和價值觀相平衡。

人工智慧代理與其開發者或使用者在目標和方法上的不一致可能會造成重大後果。缺乏足夠的信任和保障將從根本上阻礙其廣泛部署，並帶來很高的部署後風險。我們所描述的這些需要深入規劃的挑戰是前所未有的，而且難度極大，但藉助適當的框架，它們或許能夠得到解決。在人工智慧代理快速發展的進程中，指導和監控人工智慧代理的技術必須被列為高度優先事項。風險評估指標（例如…）表明，這種緊迫性不容忽視。 OpenAI 準備框架這顯示 OpenAI o3-mini 是第一個模型其模型獨立性風險達到中等。.

在本系列的後續部落格文章中，我們將基於這種內在動機和深度規劃的觀點，進一步闡述實現人工智慧基本相容性所需的指導和控制的必要能力。

審稿人

學習如何與法學碩士進行邏輯推理。 （2024年9月12日）。 OpenAI。 https://openai.com/index/learning-to-reason-with-llms/
辛格，G.（2025年3月4日）。 迫切需要內在對準技術來實現負責任的智慧體人工智慧邁向資料科學。 https://towardsdatascience.com/the-urgent-need-for-intrinsic-alignment-technologies-for-responsible-agentic-ai/
論大型語言模型的生物學基礎。（nd）。變壓器電路。 https://transformer-circuits.pub/2025/attribution-graphs/biology.html
OpenAI、Achiam, J.、Adler, S.、Agarwal, S.、Ahmad, L.、Akkaya, I.、Aleman, F. L.、Almeida, D.、Altenschmidt, J.、Altman, S.、Anadkat, S.、Avila, R.、Bel H.,巴伐利亞，M.，貝爾古姆，J.，。。。 Zoph, B.（2023 年，3 月 15 日）。 GPT-4 技術報告arXiv.org。 https://arxiv.org/abs/2303.08774
METR。 （nd）。 METR。 https://metr.org/
Meinke, A.、Schoen, B.、Scheurer, J.、Balesni, M.、Shah, R. 與 Hobbhahn, M.（2024 年，12 月 6 日）。 前沿模型能夠進行情境化規劃。 arXiv.org。 https://arxiv.org/abs/2412.04984
Omohundro, SM (2007)。 基礎人工智慧驅動。 自感知系統。 https://selfawaresystems.com/wp-content/uploads/2008/01/ai_drives_final.pdf
Benson-Tilsen, T. 和 Soares, N.，加州大學柏克萊分校機器智慧研究所。（無日期）。形式化趨同工具目標。 第三十屆AAAI大會研討會人工智能（AI）人工智慧、倫理與社會：技術報告 WS-16-02. https://cdn.aaai.org/ocs/ws/ws0218/12634-57409-1-PB.pdf
Greenblatt, R.、Denison, C.、Wright, B.、Roger, F.、MacDiarmid, M.、Marks, S.、Treutlein, J.、Belonax, T.、Chen, J.、Duvenaud, D.、Khan, A.、Michael, J.、Mindermann, S.、Petries, E.、Michael, J.、Mindermann, S.、Petries, E., J. B., Bowman, S. R. 與 Hubinger, E.（2024 年，12 月 18 日）。 大型語言模型中的對齊偽造。 arXiv.org。 https://arxiv.org/abs/2412.14093
Teun, V.D.W.、Hofstätter, F.、Jaffe, O.、Brown, S.F. 與 Ward, F.R.（2024 年 6 月 11 日）。人工智慧 故意降低評估表現：語言模型可能會在評估中策略性地表現不佳arXiv.org。 https://arxiv.org/abs/2406.07358
Hubinger, E.、Denison, C.、Mu, J.、Lambert, M.、Tong, M.、MacDiarmid, M.、Lanham, T.、Ziegler, D. M.、Maxwell, T.、Cheng, N.、Jermyn, A.、Askel, A.、Maxwell, T.、Cheng, N.、Jermyn, A.、Askel, A.、Rakrish, A.D. F.、Clark, J.，恩杜斯，K.，。。。佩雷斯，E.（2024 年，1 月 10 日）。 潛伏特工：訓練具有欺騙性的LLM人員，使其能夠透過安全訓練繼續工作。 arXiv.org。 https://arxiv.org/abs/2401.05566
Turner, A. M.、Smith, L.、Shah, R.、Critch, A. 與 Tadepalli, P.（2019 年 12 月 3 日）。 最優政策往往追求權力。 arXiv.org。 https://arxiv.org/abs/1912.01683
富爾格姆，R.（1986）。 我真正需要知道的一切都是在幼兒園學到的。 企鵝蘭登書屋加拿大分公司。 https://www.penguinrandomhouse.ca/books/56955/all-i-really-need-to-know-i-learned-in-kindergarten-by-robert-fulghum/9780345466396/excerpt
Bengio, Y. Louradour, J., Collobert, R., Weston, J. (2009 年 6 月)。 課程學習美國足病學會雜誌，60(1), 6。 https://www.researchgate.net/publication/221344862_Curriculum_learning
DeepSeek-Ai，郭，D.，楊，D.，張，H.，宋，J.，張，R.，徐，R.，朱，Q.，馬，S.，王，P.，畢，X.，張，。。張志 (2025 年 1 月 22 日)。 DeepSeek-R1：透過強化學習激勵LLM中的推理能力arXiv.org。 https://arxiv.org/abs/2501.12948
擴展測試時計算——HuggingFaceH4 的 Hugging Face Space。 (nd)。 https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute
孫宇、王曉、劉志、米勒、埃弗羅斯和哈特（2019 年 9 月 29 日）。 在分佈變化下進行自我監督的測試時間訓練以實現泛化arXiv.org。 https://arxiv.org/abs/1909.13231
Chen, G.、Dong, S.、Shu, Y.、Zhang, G.、Sesay, J.、Karlsson, B. F.、Fu, J. 與 Shi, Y.（2023 年 9 月 29 日）。 AutoAgents：一個用於自動產生代理程式的框架。 arXiv.org。 https://arxiv.org/abs/2309.17288
OpenAI。（2023年12月18日）。 準備框架（測試版）。 https://cdn.openai.com/openai-preparedness-framework-beta.pdf
OpenAI o3-mini 系統卡。 （無日期）。 OpenAI。 https://openai.com/index/o3-mini-system-card