與人工智慧搜尋巨頭 Claude、ChatGPT、Perplexity 和 Gemini 正面交鋒——結果令人震驚!
尋找答案
經過多年對人工智慧聊天機器人及其功能的測試和比較,我已經培養出一種類似第六感的能力,能夠分辨這些數位夥伴何時言之有物,何時虛假意念。本文將對 ChatGPT、Gemini、Cloude 和 Perplexity 的搜尋功能進行比較。
他們中的大多數人都可以在網路上搜尋答案,這當然很有幫助,但將搜尋和人工智慧結合起來可能會產生一些令人驚訝的深刻見解(以及一些不太深刻的離題內容)。

想像一下,你有一位博學的朋友,他在2024年10月陷入昏迷,今天剛醒來。他可能對昏迷前發生的一切瞭如指掌,但對昏迷後發生的一切一無所知。這基本上就是缺乏研究的人工智慧的現況。
我通常只專注在一個AI聊天機器人,或一次比較兩個,但研究的重要性似乎足以讓我加大投入。我決定將四款領先的AI聊天機器人及其研究能力進行比較:OpenAI的ChatGPT、Google的Gemini、Anthropic的Claude以及Perplexity AI。
最能揭示真相的測試是那些模擬真實使用場景的測試。因此,我提出了一些主題,隨機設定了一些測試細節,然後根據測試的研究能力對它們進行分類。
日曆

我首先進行了一項關於時事新聞的測試。考慮到最近兩名太空人的返回,我讓四個人工智慧聊天機器人搜尋以下內容: “NASA最新新聞稿中關於即將執行的任務的關鍵要點總結。”
我選擇這個領域是因為太空新聞佔據了合適的細分市場,它定期更新,而且足夠具體,即使是模棱兩可的回答也能立即變得清晰明了。所有聊天機器人的測試方式基本上都保持一致。
ChatGPT 的回覆極為簡潔,僅用了三句話,每句話都列出了即將開展的任務,但並未提供太多細節。 Gemini 則選擇使用項目符號清單列出各項任務,並加入了一些近期完成的任務以及未來計畫的細節。 Claude 撰寫了一篇關於當前和即將開展的任務的文章,值得注意的是,他並沒有重複太多研究內容,但進行了大量的改寫。
對於這類問題,我可能只想了解一些關鍵事實,然後計劃跟進任何吸引我注意的內容,Perplexity 的方法是我的首選。它比 ChatGPT 更詳細,而且以清晰的編號列表形式呈現,每個條目都附有引用連結。
我不能責怪其他人,但這種風格確實符合這個問題。
人口和數據

這種基於列表的方法並非總是你想要的,尤其是在詢問基本事實和進行更精確的比較時。我詢問了兩個相關的事實,人工智慧聊天機器人可以快速找到這些事實,但接下來你需要對它們進行比較,提示是:“新西蘭奧克蘭目前的人口是多少?自 1950 年以來人口增長情況如何?”
奇怪的是,Perplexity 和 ChatGPT 給出的當前人口數據存在差異,它們顯示的奧克蘭人口為 1,711,130,而 Claude 和 Gemini 則報告奧克蘭人口少了 130 人。然而,它們對 1950 年的人口數據達成了一致。
然而,就他們各自呈現資訊的方式而言,我喜歡 Claude 的敘述性回答,其中包含了 ChatGPT 所缺乏的關於人口統計變化的許多細節,而正是這些變化使得 Gemini 和 Perplexity 進入了榜單。
怎麼了?

在我的第三次測試中,我想引入一些能夠挑戰這些系統處理與特定地點和時間相關的資訊的能力的東西,即你在計劃週末旅行或接待訪客時可能會進行的查詢類型。
這就是人工智慧助理面臨的難題。了解歷史事實或一般資訊是一回事,而了解特定地點特定時間正在發生的事情則完全是另一回事。
這是理論知識和本地知識之間的區別,從歷史上看,人工智慧系統在前者方面比後者好得多。
我沒有任何特別的原因,選擇了一個我一直很喜歡的城市,然後問道: “下週末在加拿大不列顛哥倫比亞省溫哥華市將舉辦哪些文化活動?”
在這方面確實存在一些差異。 Perplexity 和 Claude 都保持了各自精準的風格,以編號列表和更口語化的方式呈現內容。然而,Claude 明顯更注重擴展而非深度,最終更接近 Perplexity。
Gemini 與競爭對手的做法截然不同,它基本上拒絕回答問題。 Gemini 沒有像其他公司那樣提供活動列表,而是提供了一些尋找目的地的策略。查看官方旅遊網站和 Eventbrite 頁面固然不錯,但這遠非直接的建議清單。這種方式更像是進行一次普通的Google搜尋。
同時,ChatGPT的表現符合我對Gemini的預期。雖然活動描述依然簡短,但這款人工智慧工具提供了詳盡的活動列表,包括日期和地點,以及了解更多Plus信息的鏈接,甚至還有鏈接內容的縮圖。
查看天氣預報

在我的第四次測試中,我選擇了人工智慧領域最常被問到的問題之一,但這個問題需要即時數據才能發揮作用:天氣預報。天氣預報非常適合測試即時資料檢索,因為它們不斷更新、廣泛可用且易於驗證。此外,它們還有天然的過期時間;昨天的預報已經過時,可以清楚地顯示訊息何時不再有效。
人工智慧聊天機器人問道:“東京未來三天的天氣預報如何?” 得到的回答幾乎與溫哥華的提問截然相反。
Claude 提供了接下來三天不同時段的天氣文字摘要,但僅此而已。 ChatGPT 會在每天的天氣摘要旁邊顯示一個太陽或雲朵的小圖標,但我更喜歡 Perplexity 的溫度折線圖,它能更準確地反映天空的景象。
谷歌Gemini的彩色資訊圖表簡潔明了,讓我留下了深刻的印象。如果我想了解當前和未來的天氣狀況,這幾乎就是我所需要的全部了。
如果我想了解更多細節,我會問的,但問天氣意味著我只想知道最基本的訊息,以便選擇合適的衣服。
影評人

在我最近的測試中,我想看看人工智慧搜尋引擎在尋找某個主題的多個觀點並將其整合為連貫的概述方面表現如何。這項任務需要靈活的搜尋功能和理解不同觀點的能力。我決定測試它們在以下請求下的表現: 總結專業影評人對最新電影的評價 帕丁頓“
這項任務需要一個切實可行的檢索系統,以及在不失去重要細節的前提下,識別跨多個來源的模式和主題的能力。這反映了觀點彙編與深思熟慮、凝聚關鍵共識的綜合分析之間的差異。
Gemini 和 Perplexity 都照例列出了各種評論家的優缺點,這些清單雖然資訊豐富,但作為總結而言未必實用。奇怪的是,ChatGPT 對此請求的最長回應卻是一篇短文,內容與此類似,結尾也闡述瞭如何評價,但其寫作風格卻像是中學生在學習基本的段落結構:主題、支撐句和結論。
克勞德的回應無疑是最強烈的,開頭是總結,後面是解釋和引用影評人的觀點。這幾乎就像是影評人寫的一篇簡短而缺乏新意的影評,只是因為引用了其他影評人的評論而顯得不那麼尖銳。看完之後,我對如何調整自己對電影的預期有了更深刻的體會。 帕丁頓在秘魯 從你與他人相處的方式來看。
搜尋聊天機器人排名
經過我專門的研究,測試了多款人工智慧聊天機器人後,我對它們的優點和缺點有了清楚的了解。 ChatGPT、Gemini、Perplexity 和 Claude 是我試用過的最好的聊天機器人之一。
它們本身都不算差,但如果有人問我,在網路上搜尋和整理資訊時,應該先嘗試哪個工具,最後嘗試哪個工具,我知道我會如何回答。
在我看來,Gemini 排名墊底,考慮到谷歌以搜尋引擎聞名,這多少有些出乎意料。然而,儘管它其他方面表現不錯,但它在處理活動日曆方面的糟糕表現還是讓我放棄了它。
令我感到意外的是,ChatGPT 竟然排在了第三。它是我最常用、最熟悉的 AI 聊天機器人,但它簡潔明了的回答(我通常很欣賞這一點)在這次搜索中顯得有些局限。我相信改變回答格式或限製字數可以解決這個問題,但如果你剛接觸 AI,對它不太熟悉,那麼提出這麼多後續問題反而會適得其反。
Perplexity 並不存在這個問題。它的編號清單非常清晰,引用幾乎涵蓋了所有內容。我主要的不滿之處在於,它會在沒有任何額外提示的情況下自動切換回搜尋引擎。我喜歡它提供資訊來源的證據,但它似乎過於急於引導用戶點擊鏈接,而不是依靠人工智慧來獲取資訊。
我沒想到克勞德會位居榜首。雖然我覺得克勞德整體來說是一款不錯的AI聊天機器人,但它總感覺比一些競爭對手略遜一籌,這些競爭對手或許同樣優秀,但在某些方面有所不同。不過,這種感覺在這次測試中完全消失了。
它也有一些不足之處,例如答案感覺有點長,或是明明一兩句話就能說清楚,卻需要寫一篇長文。但我很喜歡它那種條理清晰的敘事方式,既可以解釋溫哥華發生的一切,也可以寫成一篇影評。 帕丁頓在秘魯 他沒有重複自己的話。
人工智慧助理是工具,而不是真人秀節目中的參賽者,沒有誰能最終勝出。不同的任務需要不同的功能。最終,這四款人工智慧聊天機器人及其搜尋功能都可能有用,但如果您願意每月支付 20 美元購買 Claude Pro 並使用它的搜尋功能,那麼它正是我所說的您一直在尋找的。
評論被關閉。