親眼見證：ChatGPT 的新影像生成功能令人驚嘆

人工智能

經過 馬爾萬·穆罕默德

OpenAI 發布了 ChatGPT 影像生成功能的重大更新，這是一項令人驚嘆且具有突破性的進展。這一進步標誌著人工智慧圖像生成領域的重大飛躍。

我不會浪費大家時間來講解具體的數字、型號尺寸或是新型號的GPU使用時間。我只會直接向大家展示這次更新的功能以及它與上一代DALL-E型號的比較。

7. 手和手指

特寫鏡頭拍攝一個人彈奏吉他上的小E弦，他的手指按壓琴弦，景深很淺。

當人工智慧影像生成技術剛開始普及時，我們驚嘆不已。然後……我們進行了更深入的研究。人工智慧圖像的標誌性特徵是手和手指的特殊解剖結構。那麼，還有什麼比讓模型拍攝吉他弦更好的測試方法呢？

為了把最好的留到最後，我先詢問了最初的 DALL-E 模型，然後詢問了 ChatGPT 4o 模型中內建的新影像產生器。

上圖是一把DALL-E吉他。儘管它存在一些缺陷，但就手指的舒適度和整體人體結構而言，DALL-E的表現還不錯。然而，琴弦本身卻不盡人意。手的位置在指板上太高，無法彈奏小E音。如果放大圖片，你會發現這把吉他的琴弦不只七根。琴弦之間的間距也不一致。

考慮到這一點，讓我們繼續討論 ChatGPT 4o。

我本來可以告訴你我是在開玩笑，這只是我以前彈吉他時拍的老照片。 ChatGPT 4o 的品質真好。六根弦，間距均勻，而且那根弦居然是小E弦。我真是佩服。

6. 歷史人物

阿爾伯特愛因斯坦穿著休閒襯衫和背帶褲，在中央公園吃冰淇淋。

在嘗試產生各種物體的圖像之後，我們現在決定嘗試產生歷史人物的圖像。既然他們不會介意，那麼看看他們在現代背景下的樣子應該會很有趣。讓我們先使用 DALL-E 2 和 ChatGPT 4 來產生一張愛因斯坦的圖像。

DALL-E 2 的作品令人失望，因為他事先警告我，他不能用愛因斯坦本人的照片，而是會用一張「長得很像他」的人的照片。 DALL-E 2 的作品以卡通式的寫實主義為特色，這點在這幅作品中體現得淋漓盡致。背景中的聖雷莫大廈表明這張照片是在中央公園拍攝的，但這幾乎是這幅作品唯一的亮點。

現在我們來看看 ChatGPT 4o。

透過為這張照片加上黑白濾鏡，我完全可以讓你相信這是一張真正的老照片。冰淇淋甜筒上的奶油看起來非常細膩，愛因斯坦一如既往地保持著他標誌性的寧靜神態，聖雷莫大廈也清晰可見。一切都完美無瑕。 ChatGPT 4o 在這張照片的製作上真是技藝超群。

5. 虛構人物

在格拉斯哥喬治廣場，一個酷似賽斯勳爵的人物正在招手攔計程車，背景是細雨和交通號誌。

目前我們已經看到 ChatGPT 在繪製歷史人物方面表現出色。由於人臉和人物仍然是測試 AI 能力的最佳方式之一，讓我們來試試 Plus 吧。

我用了「類似」這個詞，讓聊天機器人配合我，避免它彈出版權警告。 DALL-E 的效果不錯。這個角色確實讓人聯想到西斯尊主，其他元素也相當準確。

雖然沒有明顯的卡通風格，但看起來並不真實。想要更逼真的效果？看看 ChatGPT 4o 用同樣的說法製作出來的東西吧：

我喜歡這裡的氛圍──燈光、薄霧，還有塞斯大人陰森的氣場。一切都恰到好處。唯一的問題是，這位黑暗魔君站在街上攔出租車，臉卻朝向……人行道。而且，計程車的標誌牌上寫的是「TAXL」。

讓我們從未來科幻小說轉向歷史小說。比如這樣的：

一個長相酷似利維亞的傑洛特的角色，在現代超市購物，推著購物車，皺著眉頭看著罐頭食品。

還不錯。畫面依然有那種人為的卡通感，麥片盒上的文字也一如既往地完全看不懂。

ChatGPT 4o 最初以版權問題為由拒絕了該索賠，但當「類似於」被替換為「似然」後，索賠成功。參見：

我簡直無言了。和大多數人一樣，ChatGPT 對傑洛特的詮釋基本上是亨利·卡維爾本人，而不是遊戲裡的版本——但他演得太棒了。那副怒容恰到好處，整個場景也顯得自然流暢。

這簡直就像是某個怪誕商業廣告拍攝現場的場景。是的，我讀過書。巫師在它成為系列劇之前。

4. 動畫片

一幅卡通畫，畫中一位海盜船長穿著紅色長外套，手臂裝有電子裝置，在太空船甲板上大笑。背景透明。

使用 OpenAI 進行影像生成並不局限於寫實風格。儘管 DALL-E 總是傾向於對影像進行一些平滑處理，無論輸入影像如何，但我決定將這兩個模型都推向完全的漫畫模式。重點在於運用先進的 AI 技術來提升漫畫的品質。

實際上，DALL·E 這次做得很好——他甚至理解了透明背景的要求。某種程度上來說是這樣。我們看到的是經典的灰白棋盤格圖案，這種圖案通常意味著透明……但在這裡，它融入了圖像中。所以，它根本不透明。

諷刺的是，駭客的AI生成的生物手有四根手指，而電子手卻有五根。也許他把鍍鉻層貼錯手臂了？

ChatGPT 4o 版本看起來更精緻考究。它的配色風格有所不同——至於哪種更好，則見仁見智——但顯然出自專業藝術家之手。 ChatGPT 的畫面品質很高，細節也很豐富。

背景也是透明的。你可以把它印在T恤上，印出來，甚至可以立即把它變成WhatsApp貼紙。

3. 鏡子和倒影

現代浴室洗手台上擺放著牙刷和刮鬍刀，鏡子裡和現實中都能看到——燈光柔和均勻。人工智慧生成圖像的準確性仍然是一個挑戰。

鏡子會反射影像，而反射需要遵循一定的空間邏輯才能顯得自然。我引入了一個我知道DALL-E難以處理的輸入。產生具有精確反射效果的逼真影像是人工智慧面臨的最大挑戰之一。

正如預期的那樣。鏡子裡似乎有東西在倒映水龍頭，但它太長了。牙刷漂浮在水槽裡，沒有反射任何影像。 DALL-E 在這個例子上花了很多心思。

新型號在影像逼真度方面做得更好，看起來就像一張真實的照片。水龍頭的倒影略有變形，但尚可接受。然後是牙刷，它雖然有倒影，但在現實世界中並不存在──就像一個倒置的吸血鬼。

目前還沒有明顯的贏家。人工智慧的測試結果並不穩定，所以我給了它們第二次機會，這次我設定了一個更具挑戰性的目標：

一位女子站在陽光明媚的臥室裡的一面全身鏡前，鏡中完美地映照出她的衣服和姿態，以及她身後窗戶的清晰倒影。

我什至都不想對這個例子進行分析。各位，如果你們想讓DALL-E聽起來很糟糕，只要在留言裡加上「鏡像」這個字就行了。咱們繼續吧。

正如預期的那樣，ChatGPT 4o 版本看起來更加逼真——但這次似乎有點超現實？女性的姿勢和衣著雖然被反射，但只是部分反射，就像使用了 3D Photoshop 的效果。反射的角度也不正確。人工智慧在空間邏輯方面仍然存在不足之處。理解 3D 空間和反射似乎是人工智慧面臨的一大挑戰。

2. 汽車和街道

2006 年式福特 GT 和一輛標緻 206 停在紐約華爾街的紅燈前，時間是中午。

我是汽車愛好者。當人工智慧影像生成軟體剛出現時，我最先嘗試的就是產生汽車影像。當時的效果並不理想，但隨著新模型的推出，我決定再試一次。

DALL-E 又一次展現了它越來越令人惱火的卡通美學。標緻車停在人行道上，它所謂的交通號誌正對著建築物，車牌號碼也完全看不懂。

ChatGPT 4o 的效果遠勝一籌。車輛照片拍攝得非常精準——就連標緻的輪圈蓋都無比精確，與時代特徵完全吻合。這種細節絕非偶然。而且它還在不斷進步：

我完全可以把這張照片設成手機桌布。光線、構圖、倒影——一切都完美無瑕。除了街上略顯空曠的景象，這張照片幾乎可以以假亂真。

1. 簡訊和訊息

一封用草寫在舊紙上的手寫信，旁邊放著一支鋼筆和一瓶墨水。

最後，我們要解決所有影像產生器的致命弱點。大多數人工智慧圖像生成器都難以產生準確的文字。想必你已經看過前面範例中那些亂碼般的DALL-E文本，應該要明白我的意思了。對於這些技術的開發者來說，在圖像中產生文字是一項巨大的挑戰。

為了讓信件更有趣——也更連貫——我添加了信的內容，即《魔獸爭霸III》中泰瑞納斯國王寫給阿爾薩斯的信的內容。

DALL-E 最擅長處理文字：它把文字轉換成了亂碼，讓人難以理解。它確實拼對了一些單詞，整體感覺還不錯——鋼筆和墨水瓶看起來也挺像樣的。但產生的文字準確度仍然有限。

ChatGPT 4o 完全正確－每個字都清晰流暢，字體優美。完美！與 DALL-E 相比，這簡直是一次巨大的飛躍。 OpenAI 幹得漂亮！這項成果充分展現了人工智慧技術在文字生成領域的巨大進步。

人工智慧影像生成技術已經取得了長足的進步——這一點毋庸置疑。 ChatGPT 4o 似乎是第一個真正理解光照、紋理和環境資訊的模型。這代表著人工智慧圖像生成領域的一項重大突破。

目前唯一真正的問題是：ChatGPT 的安全保障措施究竟有多強大？它的版權限制很容易被繞過。究竟需要多久才能有人破解 ChatGPT 的保護機制，利用這個強大的模型隨心所欲地創作內容？這種能力引發了人們對人工智慧技術負責任使用的嚴重質疑。

ChatGPT