我使用 NightCafe 測試了 5 個最佳 AI 圖像生成器——而這個擊敗了其餘的。

您最喜愛的所有工具都在這裡

在生成式人工智慧時代,各公司競相提供最佳工具和平台,使用戶能夠輕鬆且有效率地創建創新內容。在眾多工具中,Midjourney、ChatGPT 和 Gemini 等憑藉其在圖像和文字生成領域的領先地位脫穎而出。

該領域的競爭 人工智能圖像生成器 競爭非常激烈,有多家公司參與其中,例如 Ideogram 和 中途OpenAI 為了說服你使用他們的產品。這就是我 來自《夜咖啡館》的粉絲 我已經用了好幾年了。它把所有主要型號都整合到了一起,包括 DALL-E 3 和 Flux。 谷歌圖片 還有像形文字。

一張人工智慧生成的螢幕截圖顯示,一名咖啡師​​正在遞給一位女士一杯咖啡。

多年來,我創作了許多人工智慧圖像,每個模型都有其獨特之處。例如,Flux 是一款功能強大的多用途模型,並有多個版本可供選擇。 Imagen 4 在逼真度方面表現出色,而 Ideogram 在文字處理方面僅次於 GPT-4。

使用 夜店您可以嘗試在多個模板上使用相同的提示,甚至可以使用 Google Imagen 創建一張逼真的火車站圖片,然後將其用作象形圖項目的起始圖像,並在上面疊加標題或風格化的徽標。您也可以使用相同的提示在多個範本上進行創作,看看哪個更適合您。

NightCafe 也提供了大多數主流的視訊模型,包括 Kling、Runway Gen-4、Luma Dream Machine 和 Wan 2.1。本次測試,我們將重點放在圖像模型上。

選擇最優模型:走進生成式人工智慧的世界

擁有多種智慧模型為您提供了絕佳的機會,可以對它們進行全面測試和評估,從而找到最符合您的創意理念和個人偏好的模型。您很快就會發現,這些模型之間的差異比您想像的要深刻得多,也更具影響力。

除了 Flux 和 Imagen 等領先模型之外,還有一些基於社群的模型,它們是 Flux 和 Stable Diffusion 的改進和修改版本。在此背景下,我將重點放在以下核心模型:OpenAI GPT-1、Recraft v3、Google Imagen 4、Ideogram 3 和 Flux Kontext。這些模型代表了生成式人工智慧領域創新發展的前沿。

為了便於比較和評估,我專門為此目的設計了一個測試提示。此提示要求高度逼真的圖像,並呈現了一個具有精確文字要求的複雜場景。這種方法使我們能夠評估每個模型處理精細細節和產生高品質逼真影像的能力,同時確保它們符合指定的文字要求。

1. Google Imagen 4

Google Imagen 4 是 Gemini 應用程式按需建立影像的核心模型,也是 Google Slides 創建幻燈片所使用的模型。憑藉其先進的功能,Imagen 4 可以根據簡單的文字描述生成逼真、高品質的圖像。

在初步測試中,Imagen 4 產生了一張視覺效果不錯的咖啡館圖像,尤其突出了升騰的煙霧。該模型成功地按照要求在場景中添加了兩個人,並準確地生成了所需車輛的圖像。然而,最終圖像中並未顯示所需的文字。儘管存在這一小缺陷,Google Imagen 4 仍然是一款強大的圖像創建工具,尤其是在 Gemini 和 Google Slides 等應用程式中使用時。

2. 通量上下文最大值

咖啡師正在沖泡咖啡
Black Forest Labs 的 Flux 模型是目前最通用且開源的模型之一。隨著 Kontext 的發布,我們現在擁有了能夠更好地理解自然語言的圖像模型。這意味著,與 OpenAI 的 GPT-4 的原生影像生成功能類似,它們能夠產生更精確的結果,尤其是在渲染複雜文字或場景時。

Flux Kontext 完美地捕捉到了「Cafe Matin」的意象,人物還原得非常到位,在某些方面甚至比 Imagen 更像法式風格,但我認為它在照片還原度上並不高。該模型代表了生成式人工智慧領域的一項重要進展,它能夠根據文字描述產生更精準、更逼真的圖像,使其成為設計師、藝術家和其他創意人士的強大工具。

3. OpenAI GPT Image-1

OpenAI 的 GPT Image-1 模型(請勿與 2018 年發布的 GPT-1 混淆)代表了多媒體人工智慧領域的重大飛躍。它專為提升影像渲染精度而設計,是 Adob​​e、Figma、Canva 和 NightCafe 等領先的數位設計和創意公司廣泛使用的強大工具。 GPT Image-1 具備先進的自然語言線索理解能力,使用者只需輸入文字描述即可創建逼真細膩的圖像。

儘管模型功能強大,但仍存在一些局限性,最顯著的是它不支援常見的寬高比,例如 9:16 或 16:9,因為它只能產生正方形影像。在附圖範例中,該模型成功捕捉了卡車和所需的名稱,但整體場景品質並不理想。此外,該模型還隨機生成了第二把傘,並且手的擺放位置顯得不自然,這表明在某些情況下,要實現完全逼真的效果仍存在一些挑戰。

咖啡師

4. 象形文字 v4

咖啡師

自推出以來,Ideogram 一直是我最喜歡的用於生成圖像的 AI 模型之一。它能持續產生清晰易讀的文本,並且比其他模型在風格上更具彈性。 Ideogram 網站包含一個設計精良的控制面板和一個內建的升級工具。

效果並非完美無瑕——咖啡師的姿勢略顯滑稽——但燈光更加逼真,卡車停在人行道上而不是馬路上,讓整個場景更顯真實。畫面也更現代,文字清晰易讀,設計精良。

5. Recraft v3

Recraft v3 咖啡師圖片

它被認為是一個程序 重製 作為一款功能齊全的設計模型,它非常適合創建圖文並茂的文字和圖表,但這並不意味著它無法製作出令人驚豔的圖像。該軟體具備… 重製 這款產品一推出便徹底改變了市場格局,超越其他型號,佔據了排行榜的榜首位置。

就我個人而言,我對最終效果並不滿意。誠然,這張圖在視覺上頗具吸引力,部分原因在於其構圖的留白。然而,煙霧的渲染過於誇張,咖啡的元素又在哪裡呢?最重要的是,對於以文字為主題的模型來說,畫面中卻完全沒有文字或符號的痕跡。

理想選擇:Flux Kontext Max

咖啡師

儘管 Flux 存在一些視覺問題,但它的顯示效果最穩定,文字清晰易讀。如果我要將這些圖片用於商業用途,例如作為素材圖片,我會選擇 Google Imagen 4,但僅從視覺效果來看,Flux 更勝一籌。

Flux Kontext 的另一大優勢在於其便利的編輯功能。您只需輸入一條輔助命令即可更改卡車的顏色,或將老婦人替換成商務人士。 Gemini 也能做到這一點,但 Imagen 卻不行。您需要使用 Gemini 2 及更高版本自備的 Imagen 創作功能。

如果您想使用 Kontext 修改任何圖像,即使它最初並非 Kontext 圖像,只需在 NightCafe 中點擊該圖像,然後選擇「提示編輯」。這將花費您大約 2.5 個積分,並且只是一個簡單的描述性文字命令。

總結NightCafe

在這項測試中,我使用了每個模型最昂貴的版本——也就是生成每張圖像所需處理時間最長的版本。這使我能夠進行更公平的比較。真正讓我感到驚訝的是,每個模型對同一描述性語句的解讀竟然有顯著差異。然而,所有模型在遵循該語句方面都取得了顯著進步,這一點我並不感到驚訝。

我最喜歡 NightCafe 的地方在於它是一站式 AI 內容創作平台。它不僅提供各種主流的圖片和影片模板,還擁有一個龐大的社區,其中包含各種遊戲、活動和專注於內容創作的小組。此外,你還可以在應用程式內編輯任何已建立的影像,進行增強、修復人臉、提高解析度和放大等操作。 NightCafe 是一個功能全面的 AI 圖像創作平台,提供高級工具和支援性強的社區,是內容創作者的絕佳選擇。

評論被關閉。