GPT-5 中缺少 Sora 2：這是否代表人工智慧視訊技術的飛躍？

OpenAI，拜託了，我們需要發聲！

該公司正在準備 OpenAI 為了推出其旗艦級人工智慧視訊模型的新版本，空在本季某個時候。儘管 Sora 在發布之初具有革命性意義，但此後已被競爭對手超越，Google的 Veo 3 目前已成為人工智慧視訊生成領域的黃金標準。

鑑於[前作/部分]的快速發布，我預計 Sora 2 將在未來幾週或幾個月內發布。 GPT-5與 GPT-4o 一樣，GPT-5 本身就是多媒體的，可以處理任何類型的輸入或輸出（包括視訊），同時執行類似「o」字串模型的複雜推理任務。

Sora 仍然是一個強大的平台。它的故事板功能正在開闢新的領域，訂閱用戶可以 ChatGPT 專業版可以創建長達 20 秒的影片片段。然而，基礎版則顯得有些過時。它的輸出仍然存在運動控制問題，缺少聲音生成功能，並且在渲染複雜的物理效果方面也存在困難——這與 Veo 3、Kling 2.1 或 MiniMax 2 等產品截然不同。

即使在社群影片領域，OpenAI 現在也面臨著幾乎所有 AI 平台的競爭，包括 Meta 和格羅克和中途然而，OpenAI 仍然是全球最大的人工智慧實驗室，擁有雄厚的資源——儘管 Meta 最近進行了人才收購，但它仍然擁有一支強大的工程團隊。現在就斷定他們不行還太早。

OpenAI需要做些什麼才能讓Sora具備競爭力？

為了與Google的視訊模型或新興的中國競爭對手在生成式人工智慧視訊領域展開競爭，OpenAI 必須充分利用其多媒體功能，同時擴展 Sora 的功能集。與 ChatGPT 更緊密的整合也將大有裨益。以下是 Sora 2 的五個關鍵改進：

1. 產生原始聲音：一個不容商榷的前提條件

如果 OpenAI 想要在 AI 視訊生成領域與 Google 的 Veo 3 競爭，Sora 2 就必須原生且無縫地處理視訊和音訊。任何不支援音訊生成的模型都存在明顯的缺陷。

目前，Sora 只能生成無聲視頻，這是一個很大的缺陷，尤其考慮到 Veo 3 的核心功能包括生成音效、環境音，甚至是對話。這並非事後添加音訊那麼簡單，而是要真正實現視訊和聲音的無縫融合。

Veo 3 可以為多種語言的角色產生唇形同步語音。 Sora 2 也需要相同的內建音訊產生功能，從環境音效到對話語音都能勝任。這項功能對於創建逼真且引人入勝的影片內容至關重要。

如果 OpenAI 能夠實現完整的多媒體生成（視訊+音訊），同時保持 20 秒或更長的視訊片段，它不僅能夠趕上 Veo 3，而且有可能在 AI 視訊生成市場中完全超越 Veo 3。這種優勢將使其成為這一先進技術領域的領導者。

2. 從根本上改進物理模擬

視覺現實遠不止於簡單的精確度；它從根本上依賴物理學。目前 Sora 的輸出畫面經常出現不自然的運動或扭曲的物理效果：例如違反重力的水流、物體意外移動，或是運動軌跡明顯錯誤。這種物理真實性的缺失降低了視訊質量，使其顯得不自然。

很明顯，Google在Veo 3中優先考慮了逼真的物理效果，而最終的成果也證明了這一點。他們的影片在模擬真實的物理效果和動態運動方面表現出色，誤差極小。相較之下，舊款Sora模型則會出現運動不流暢、物件間互動不一致等問題，嚴重影響沉浸感。例如，在Sora中，你可能會看到物體移動速度過快，或是出現一些不符合物理規律的行為。

為了使 Sora 2 具有競爭力，其模型必須更好地理解現實世界的行為——從自然的人類步態到彈跳的球，從煙霧動力學到流體力學。本質上，OpenAI 需要將實體引擎整合到 Sora 中。逼真的運動和互動（不再出現肢體扭曲或背景模糊）將縮小與競爭對手之間的關鍵差距。這需要模型在理解和應用基礎物理原理方面進行重大改進。

3. 應以對話為基礎的指導為標準。

OpenAI究竟藏著什麼秘密？ ChatGPT已經訓練了數百萬用戶與AI進行對話。 Sora 2應該充分利用這一優勢，讓影片創作過程感覺像是一場對話，而不僅僅是程式設計。

系統不應要求提供完美無缺的指導或複雜的介面導航，而應支援自然流暢的來回優化。谷歌已朝著這個方向邁進——它利用其 Flow 工具 Gemini AI，以日常語言提供直覺的指導。

Runway 的聊天機器人在這方面做得非常出色，而現在，借助全新的 Aleph 工具，第四代開發者能夠更精準地優化任何單一元素。 Luma 的 Dream Machine 正是基於這個理念從零開始建構的。

想像這樣的工作流程：你輸入“一位中世紀騎士在山上”，收到一段視頻草稿，然後只需說“把畫面改成日出，再加一條龍”，Sora 就會立即更新場景。這種對話式的操作方式既能降低新手入門門檻，又能加快專業人士的工作流程。

技術已經成熟。 ChatGPT 已經能夠解讀後續請求並動態調整輸出（如 GPT-4os 的原生影像整合所顯示的那樣）。 Sora 2 與 ChatGPT 完全集成，應該能夠讓我們透過對話輕鬆製作出精彩的影片。這種用戶體驗將遠遠超越大多數競爭對手仍需要的技術指導。

它還將允許用戶先創建原始圖像，然後使用 Sora 製作動畫，類似於 Google 在 Gemini 中使用 Veo 3 或全新 Grok Imagine 功能的方式。此次整合將顯著提升視覺內容創作能力。

4. 下一代索拉角色穩定性和自訂的重要性

角色和場景的一致性是開發人工智慧視訊生成模型時需要重點關注的另一個關鍵改進點。目前，使用「一個穿著紅裙子的女孩」這個短語產生兩個影片片段，可能會產生兩個完全不同的角色。 Sora 的輸出作品在不同場景之間風格和細節上的差異也很大，這使得生成連貫的多場景故事或重複出現的角色幾乎不可能。

Sora 2 應該能夠讓使用者在較長的影片片段或序列中創建一致的角色、物件和美術風格。競爭對手已經提供了類似的功能；Kling 2.1 宣稱可以「直接透過文字提示創造一致的角色和電影級光照效果」。 Google的 Flow 更進一步，允許在多個場景中使用自訂素材（例如肖像、特定美術風格）作為「組件」。

OpenAI應該提供類似的功能：上傳參考圖像、微調風格或保持角色在不同場景間的一致性。如果Sora 2能夠在整個影片中保持角色外觀的一致性，創作者就能真正講述故事，而無需製作多個獨立的片段，尤其是在它原生支援20秒以上影片的音訊整合的情況下。

一致性和個性化相輔相成——無論您是追求獨特風格的藝術家，還是需要保持角色連貫性的電影製作人，Sora 2 都能提供所需的控制力。這確保了使用者的願景能夠更精準地實現，並為生成式人工智慧領域更廣闊的創作可能性打開了大門。

5. 與 ChatGPT 深度整合並實現全球可用性

OpenAI需要透過將Sora 2完全整合到ChatGPT中來鞏固其市場地位，同時確保其廣泛的可用性。雖然Google的Veo可以連接到更廣泛的工具套件（包括Gemini整合、API存取和Flow應用），但Meta勢必會將AI驅動的視訊功能整合到其所有產品中。

OpenAI 可以透過將 Sora 2 無縫整合到 ChatGPT 中來脫穎而出。這種即時整合將使數百萬 ChatGPT 用戶無需切換應用程式即可擁有一個 AI 驅動的視訊工作室。他們可以效仿谷歌的做法，對每日影片創建數量設置較低的上限，同時提供高級訂閱計劃以允許無限訪問，就像 ChatGPT Pro 和 Sora 目前的做法一樣。

提升行動端體驗至關重要。如今的創作者完全透過手機完成拍攝、剪輯和發布。如果 Sora 2 能與 ChatGPT 行動應用程式（或 Sora 專屬應用）無縫集成，並提供快速創作功能，它就能在 TikTok 和 Reels 上搶佔創作者市場。試想一下，你只需對手機說：“嘿 ChatGPT，幫我製作一個 15 秒的卡通宇航員登陸火星的視頻”，就能立即獲得可分享的內容。

透過 ChatGPT、開發者 API 和行動平台，讓 Sora 2 無所不在，OpenAI 可以快速建立用戶群，同時收集必要的最佳化回饋。

Leonardo、Freepik 和 Higgsfield 等平台已經廣泛使用 Google 的 Veo 3 和 Hailuo 的 MiniMax 2，因為它們性能卓越、速度極快，並且可以透過 API 取得。 OpenAI 由於 Sora 缺乏更新，在創意人工智慧領域落後於其他平台。

結論

OpenAI 有機會透過借鏡競爭對手的成功經驗，重奪生成式人工智慧領域的領導地位。目前，Google的 Veo 3 模型憑藉其在原生語音生成、逼真的物理模擬以及對文字指令的精準響應方面的卓越能力，被公認為業界標竿。同時，Kling 2.1 和 MiniMax 2 等新興模型也不斷拓展該領域的可能性。

Runway正穩步推進其第四代模型的改進，該模型在提供與Sora類似的物理模擬品質的同時，也增加了更多功能。同時，像Pika這樣的其他公司則專注於服務內容創作者，這給OpenAI帶來了壓力，並削弱了其在這個高價值市場份額中的份額。

Sora 2 不能只是簡單的漸進式改進；它必須以其非凡的能力讓所有人驚嘆。

好消息是，OpenAI 已經具備成功的關鍵要素：強大的語言模型、可供參考的第一代視訊模型，以及得益於 ChatGPT 而累積的龐大用戶群。如果 OpenAI 能夠實現逼真的語音生成、真實的物理模擬、用戶友好的對話、場景中一致的角色塑造，以及與其他產品的無縫集成，那麼 Sora 2 必將超越 Veo 3、Kling 以及該領域的所有競爭對手。

當所有這些功能同時具備時，如果下一個在社群媒體上爆紅的影片是用 Sora 2 製作的，也不要感到驚訝。

ChatGPT 空