英偉達正在幫助解決人工智慧影像生成領域最大的挑戰。

高功耗和高運算需求是人工智慧面臨的主要挑戰，尤其是在媒體創作等任務中。在行動裝置上，當這些任務在本地運行時，只有少數配備強大處理器的昂貴設備才能處理所有功能。即使在雲端大規模部署，成本仍然很高。

英偉達可能已經悄悄地透過與麻省理工學院和清華大學合作來應對這項挑戰。該團隊開發了一種名為「混合人工智慧影像創建工具」的工具。 HART （混合自動轉換器）本質上結合了兩種最廣泛使用的AI影像生成技術。結果是，它是一款速度極快且運算需求顯著降低的工具。

為了讓您對它的速度有所了解，我讓它產生一張鸚鵡彈貝斯的圖片。它幾乎在一秒鐘之內就返回了下一張圖片。我幾乎都跟不上進度條的移動速度。當我使用相同的輸入和一個模型時，速度也很快。谷歌影像3 在 Gemini 上，使用 200 Mbps 的網路連接，大約需要 9-10 秒。

人工智慧生成影像技術的巨大飛躍

隨著人工智慧影像技術的興起，擴散技術成為背後的驅動力，並支撐著OpenAI的Dall-E影像產生器、Google的Imagen以及Stable Diffusion等產品。此方法的特點是能夠產生高解析度、細節豐富的影像。然而，它需要多個步驟才能創建人工智慧生成的圖像，因此速度較慢且計算成本高。

第二種方法是自迴歸模型，這種方法最近越來越受歡迎。它的工作原理類似於聊天機器人，利用像素預測技術生成圖像。這種方法速度更快，但也更容易在人工智慧生成的圖像創建過程中出現錯誤。

麻省理工學院的一個團隊將這兩種方法結合到一個名為 HART 的軟體包中。該技術依賴自回歸模型來預測壓縮影像的離散符號，而微擴展模型則負責處理其餘部分以補償質量損失。這種方法將步驟數量從二十多個減少到僅八個。

HART背後的專家聲稱，這項技術「產生的影像品質可以達到甚至超過最新的擴散模型，但速度卻快了大約九倍」。 HART結合了一個擁有700億個參數的自回歸模型和一個可以處理37萬個參數的小型擴散模型。

有趣的是，這種名為 HART 的混合工具能夠產生品質堪比先進模型、容量達 2 億個標準的影像。更重要的是，HART 完成這項壯舉的速度比其他影像產生方法快九倍，同時計算資源消耗卻減少了 31%。

據該團隊稱，HART 的低運算量設計使其能夠在手機和筆記型電腦上本地運行，這是一項重大成就。目前，像 ChatGPT 和 Gemini 這樣的熱門產品需要網路連線才能產生影像，運算工作在雲端伺服器上進行。

在測試影片中，團隊示範了在一台配備英特爾酷睿系列處理器和英偉達GeForce RTX顯示卡的微星筆記型電腦上進行本機運作。這種配置在市面上大多數遊戲筆記型電腦中都很常見，而且價格也相對親民。

HART能夠產生1:1寬高比、解析度為1024 x 1024像素的影像。這些影像的細節水平令人印象深刻，風格多樣性和場景準確度也同樣出色。在測試過程中，團隊觀察到，這種混合人工智慧工具的運作速度提高了三到六倍，吞吐量提高了七倍以上。

未來的可能性令人興奮，尤其是在將HART的影像處理能力與語言模型結合之後。麻省理工學院的研究團隊表示：“未來，人們可以與一個統一的視覺和語言生成模型進行交互，例如，讓他們展示組裝一件家具所需的中間步驟。”

他們已經在探索這個想法，甚至計劃測試HART的音訊和視訊生成方法。您可以在[平台/網站/等等]上嘗試。網路控制面板麻省理工學院（MIT）。

在深入探討品質問題之前，需要指出的是，HART 仍處於早期研究階段。在技術方面，團隊已經發現了一些挑戰，例如推理和訓練過程中工作負載的增加。預計該項目在不久的將來會取得重大進展。

這些挑戰可以解決，也可以忽略，因為它們在整體上影響甚微。此外，考慮到 HART 在運算效率、速度和延遲方面帶來的巨大優勢，這些挑戰即使存在也不會造成任何顯著的效能問題。

當我短暫測試 HART 的文字提示功能時，它產生影像的速度令我驚嘆。我從未遇到過這款免費軟體生成圖像超過兩秒鐘的情況。即使提示訊息長達三段（近 200 字），HART 也能產生與描述完美匹配的影像。

除了描述的準確性之外，圖像也非常細緻。然而，HART 也存在典型人工智慧影像生成軟體的限制。它在產生基本人物和圖形方面有困難，例如進食動作、人物性格一致性和透視捕捉。

在模擬人類情境方面，我注意到該程式有明顯的缺陷。有時，它會誤解一些基本概念，例如把戒指和項鍊混淆。但總的來說，這類錯誤並不多見。許多人工智慧工具，儘管已經存在一段時間，在這方面仍然存在不足之處。

總的來說，我對HART的巨大潛力感到非常興奮。我很想知道麻省理工學院和英偉達會基於它開發產品，還是只是將這種人工智慧驅動的混合影像生成方法應用到現有產品中。無論哪種方式，它都讓我們得以一窺充滿希望的未來。