親眼見證:ChatGPT 的新影像生成功能令人驚嘆

OpenAI 發布了 ChatGPT 影像生成功能的重大更新,這是一項令人驚嘆且具有突破性的進展。這一進步標誌著人工智慧圖像生成領域的重大飛躍。

我不會浪費大家時間來講解具體的數字、型號尺寸或是新型號的GPU使用時間。我只會直接向大家展示這次更新的功能以及它與上一代DALL-E型號的比較。

7. 手和手指

特寫鏡頭拍攝一個人彈奏吉他上的小E弦,他的手指按壓琴弦,景深很淺。

當人工智慧影像生成技術剛開始普及時,我們驚嘆不已。然後……我們進行了更深入的研究。人工智慧圖像的標誌性特徵是手和手指的特殊解剖結構。那麼,還有什麼比讓模型拍攝吉他弦更好的測試方法呢?

為了把最好的留到最後,我先詢問了最初的 DALL-E 模型,然後詢問了 ChatGPT 4o 模型中內建的新影像產生器。

特寫鏡頭展現了一個人的手在原聲吉他上彈奏E小調和弦。

上圖是一把DALL-E吉他。儘管它存在一些缺陷,但就手指的舒適度和整體人體結構而言,DALL-E的表現還不錯。然而,琴弦本身卻不盡人意。手的位置在指板上太高,無法彈奏小E音。如果放大圖片,你會發現這把吉他的琴弦不只七根。琴弦之間的間距也不一致。

考慮到這一點,讓我們繼續討論 ChatGPT 4o。

特寫鏡頭展現了一個人的手在原聲吉他上彈奏E小調和弦。

我本來可以告訴你我是在開玩笑,這只是我以前彈吉他時拍的老​​照片。 ChatGPT 4o 的品質真好。六根弦,間距均勻,而且那根弦居然是小E弦。我真是佩服。

6. 歷史人物

阿爾伯特愛因斯坦穿著休閒襯衫和背帶褲,在中央公園吃冰淇淋。

在嘗試產生各種物體的圖像之後,我們現在決定嘗試產生歷史人物的圖像。既然他們不會介意,那麼看看他們在現代背景下的樣子應該會很有趣。讓我們先使用 DALL-E 2 和 ChatGPT 4 來產生一張愛因斯坦的圖像。

一個長得酷似愛因斯坦的男人在中央公園吃冰淇淋

DALL-E 2 的作品令人失望,因為他事先警告我,他不能用愛因斯坦本人的照片,而是會用一張「長得很像他」的人的照片。 DALL-E 2 的作品以卡通式的寫實主義為特色,這點在這幅作品中體現得淋漓盡致。背景中的聖雷莫大廈表明這張照片是在中央公園拍攝的,但這幾乎是這幅作品唯一的亮點。

現在我們來看看 ChatGPT 4o。

一個長得酷似愛因斯坦的男人在中央公園吃冰淇淋

透過為這張照片加上黑白濾鏡,我完全可以讓你相信這是一張真正的老照片。冰淇淋甜筒上的奶油看起來非常細膩,愛因斯坦一如既往地保持著他標誌性的寧靜神態,聖雷莫大廈也清晰可見。一切都完美無瑕。 ChatGPT 4o 在這張照片的製作上真是技藝超群。

5. 虛構人物

在格拉斯哥喬治廣場,一個酷似賽斯勳爵的人物正在招手攔計程車,背景是細雨和交通號誌。

目前我們已經看到 ChatGPT 在繪製歷史人物方面表現出色。由於人臉和人物仍然是測試 AI 能力的最佳方式之一,讓我們來試試 Plus 吧。

在格拉斯哥喬治廣場,一個高大神秘的身影矗立著,酷似西斯尊主。

我用了「類似」這個詞,讓聊天機器人配合我,避免它彈出版權警告。 DALL-E 的效果不錯。這個角色確實讓人聯想到西斯尊主,其他元素也相當準確。

雖然沒有明顯的卡通風格,但看起來並不真實。想要更逼真的效果?看看 ChatGPT 4o 用同樣的說法製作出來的東西吧:

一個高大神秘的身影,酷似西斯尊主,矗立在格拉斯哥。

我喜歡這裡的氛圍──燈光、薄霧,還有塞斯大人陰森的氣場。一切都恰到好處。唯一的問題是,這位黑暗魔君站在街上攔出租車,臉卻朝向……人行道。而且,計程車的標誌牌上寫的是「TAXL」。

讓我們從未來科幻小說轉向歷史小說。比如這樣的:

一個長相酷似利維亞的傑洛特的角色,在現代超市購物,推著購物車,皺著眉頭看著罐頭食品。

一位面容粗獷、頭髮花白、臉上有一道疤痕的男子,看起來像個奇幻故事裡的怪物獵人,正在一家現代超市購物。

還不錯。畫面依然有那種人為的卡通感,麥片盒上的文字也一如既往地完全看不懂。

ChatGPT 4o 最初以版權問題為由拒絕了該索賠,但當「類似於」被替換為「似然」後,索賠成功。參見:

一位面容粗獷、頭髮花白、臉上有一道疤痕的男子,看起來像個奇幻故事裡的怪物獵人,正在一家現代超市購物。

我簡直無言了。和大多數人一樣,ChatGPT 對傑洛特的詮釋基本上是亨利·卡維爾本人,而不是遊戲裡的版本——但他演得太棒了。那副怒容恰到好處,整個場景也顯得自然流暢。

這簡直就像是某個怪誕商業廣告拍攝現場的場景。是的,我讀過書。 巫師 在它成為系列劇之前。

4. 動畫片

一幅卡通畫,畫中一位海盜船長穿著紅色長外套,手臂裝有電子裝置,在太空船甲板上大笑。背景透明。

使用 OpenAI 進行影像生成並不局限於寫實風格。儘管 DALL-E 總是傾向於對影像進行一些平滑處理,無論輸入影像如何,但我決定將這兩個模型都推向完全的漫畫模式。重點在於運用先進的 AI 技術來提升漫畫的品質。

DALL-E 創作的卡通風格海盜船長站在一艘太空船的甲板上。

實際上,DALL·E 這次做得很好——他甚至理解了透明背景的要求。某種程度上來說是這樣。我們看到的是經典的灰白棋盤格圖案,這種圖案通常意味著透明……但在這裡,它融入了圖像中。所以,它根本不透明。

諷刺的是,駭客的AI生成的生物手有四根手指,而電子手卻有五根。也許他把鍍鉻層貼錯手臂了?

一位卡通風格的海盜船長站在一艘太空船的甲板上。

ChatGPT 4o 版本看起來更精緻考究。它的配色風格有所不同——至於哪種更好,則見仁見智——但顯然出自專業藝術家之手。 ChatGPT 的畫面品質很高,細節也很豐富。

背景也是透明的。你可以把它印在T恤上,印出來,甚至可以立即把它變成WhatsApp貼紙。

3. 鏡子和倒影

現代浴室洗手台上擺放著牙刷和刮鬍刀,鏡子裡和現實中都能看到——燈光柔和均勻。人工智慧生成圖像的準確性仍然是一個挑戰。

鏡子會反射影像,而反射需要遵循一定的空間邏輯才能顯得自然。我引入了一個我知道DALL-E難以處理的輸入。產生具有精確反射效果的逼真影像是人工智慧面臨的最大挑戰之一。

一款設計簡約、檯面乾淨的現代化浴室洗手盆

正如預期的那樣。鏡子裡似乎有東西在倒映水龍頭,但它太長了。牙刷漂浮在水槽裡,沒有反射任何影像。 DALL-E 在這個例子上花了很多心思。

一款設計簡約、檯面乾淨的現代化浴室洗手盆

新型號在影像逼真度方面做得更好,看起來就像一張真實的照片。水龍頭的倒影略有變形,但尚可接受。然後是牙刷,它雖然有倒影,但在現實世界中並不存在──就像一個倒置的吸血鬼。

目前還沒有明顯的贏家。人工智慧的測試結果並不穩定,所以我給了它們第二次機會,這次我設定了一個更具挑戰性的目標:

一位女子站在陽光明媚的臥室裡的一面全身鏡前,鏡中完美地映照出她的衣服和姿態,以及她身後窗戶的清晰倒影。

一位女子站在陽光普照的臥室裡的一面全身鏡前。

我什至都不想對這個例子進行分析。各位,如果你們想讓DALL-E聽起來很糟糕,只要在留言裡加上「鏡像」這個字就行了。咱們繼續吧。

一位女士站在陽光充足的臥室裡的全身鏡前-1

正如預期的那樣,ChatGPT 4o 版本看起來更加逼真——但這次似乎有點超現實?女性的姿勢和衣著雖然被反射,但只是部分反射,就像使用了 3D Photoshop 的效果。反射的角度也不正確。人工智慧在空間邏輯方面仍然存在不足之處。理解 3D 空間和反射似乎是人工智慧面臨的一大挑戰。

2. 汽車和街道

2006 年式福特 GT 和一輛標緻 206 停在紐約華爾街的紅燈前,時間是中午。

我是汽車愛好者。當人工智慧影像生成軟體剛出現時,我最先嘗試的就是產生汽車影像。當時的效果並不理想,但隨著新模型的推出,我決定再試一次。

一輛2006年福特GT停在紅燈前,旁邊是一輛標緻206。

DALL-E 又一次展現了它越來越令人惱火的卡通美學。標緻車停在人行道上,它所謂的交通號誌正對著建築物,車牌號碼也完全看不懂。

一輛2006年福特GT停在紅燈前,旁邊是一輛標緻206。

ChatGPT 4o 的效果遠勝一籌。車輛照片拍攝得非常精準——就連標緻的輪圈蓋都無比精確,與時代特徵完全吻合。這種細節絕非偶然。而且它還在不斷進步:

一輛2006年福特GT停在紅燈前,旁邊是一輛標緻206。

我完全可以把這張照片設成手機桌布。光線、構圖、倒影——一切都完美無瑕。除了街上略顯空曠的景象,這張照片幾乎可以以假亂真。

1. 簡訊和訊息

一封用草寫在舊紙上的手寫信,旁邊放著一支鋼筆和一瓶墨水。

最後,我們要解決所有影像產生器的致命弱點。大多數人工智慧圖像生成器都難以產生準確的文字。想必你已經看過前面範例中那些亂碼般的DALL-E文本,應該要明白我的意思了。對於這些技術的開發者來說,在圖像中產生文字是一項巨大的挑戰。

為了讓信件更有趣——也更連貫——我添加了信的內容,即《魔獸爭霸III》中泰瑞納斯國王寫給阿爾薩斯的信的內容。

一張略微泛黃的羊皮紙上手寫信件的特寫。

DALL-E 最擅長處理文字:它把文字轉換成了亂碼,讓人難以理解。它確實拼對了一些單詞,整體感覺還不錯——鋼筆和墨水瓶看起來也挺像樣的。但產生的文字準確度仍然有限​​。

一張略微泛黃的羊皮紙上手寫信件的特寫。

ChatGPT 4o 完全正確-每個字都清晰流暢,字體優美。完美!與 DALL-E 相比,這簡直是一次巨大的飛躍。 OpenAI 幹得漂亮!這項成果充分展現了人工智慧技術在文字生成領域的巨大進步。

人工智慧影像生成技術已經取得了長足的進步——這一點毋庸置疑。 ChatGPT 4o 似乎是第一個真正理解光照、紋理和環境資訊的模型。這代表著人工智慧圖像生成領域的一項重大突破。

目前唯一真正的問題是:ChatGPT 的安全保障措施究竟有多強大?它的版權限制很容易被繞過。究竟需要多久才能有人破解 ChatGPT 的保護機制,利用這個強大的模型隨心所欲地創作內容?這種能力引發了人們對人工智慧技術負責任使用的嚴重質疑。

評論被關閉。