觀眾評分：27 個 AI 模型，ChatGPT 位列第八——以下是表現優於它的模型

儘管世界人工智能 (AI) 雖然它可能經常看起來像一個動蕩的領域，但在幕後卻有令人驚訝的大量分析、基準測試和測試——不僅是公司本身，還有為確定自己的排名而創建的團體。

這些小組測試了聊天機器人的方方面面，從聊天機器人的能力到完成數學測試，
創建圖像，或提供合乎邏輯的解釋，甚至提供醫療建議，或只是展示她的情緒智商有多高。

在這些不同的測試中，模型在不同領域展現了各自的優勢和劣勢。例如， GPT-5 他擅長科學推理，但在適應新概念的能力方面落後於雙子座和克勞德等人。

這些測試中的每一個都揭示了關於AI模型的新訊息，它們對於提醒我們在不同場景下哪些工具是最佳選擇至關重要。但通常有一個指標被忽略：哪些AI模型能夠提供最佳的使用者體驗？

人類分類系統

一家名為 Prolific 的英國科技公司創立了名為 Humaine 的 AI 排行榜Prolific 並沒有測試 AI 完成任務的能力，而是使用這些模型測試了不同的使用者體驗。

透過評估 21,352 人使用這些工具的體驗，他們不僅能夠找出整體贏家，還能按年齡、地點（測試在英國和美國進行）和政治信念細分結果。

其中包括以下個人清單：

團隊讓每位參與者與兩個不同的人工智慧模型進行比較，並要求他們提供回饋，說明哪個模型在每次互動中表現得更好。

這不僅產生了整體優勝者和表現排行榜，還對基本任務表現和推理進行了單獨排名，並產生了溝通、適應力、信任和道德方面的優勝者。

經過全面評測，Gemini 2.5-Pro 不僅在整體表現類別中，而且在大多數子類別中都表現出色，堪稱當之無愧的贏家。 Gemini 2.5-Pro 幾乎在所有測試基準中都表現出色。

英國 18-34 歲的年輕人、民主黨選民以及美國 55 歲以上的人都同意雙子座2.5專業版總體而言，這是最好的模型。唯一一個所有人群都排名高於 Gemini 的領域是信任、道德和安全，而 Grok-3 的排名則略顯諷刺——考慮到 AI 模型最近面臨的一些安全和道德問題。

有趣的是，Gemini 之後出現的三個模型分別是 Deepseek、Magistral Le Chat 和格羅克雖然Deepseek在今年稍早人氣飆升，但最近卻逐漸淡出了人們的視線。而Le Chat雖然人氣稍遜，卻擁有一群忠實的粉絲。

那麼，舉世聞名的 ChatGPT 究竟處於什麼位置呢？它排在榜單的末尾，與評分最高的 GPT-4.1 模型一起位列第八。更糟的是克勞德，其四屆賽事在總排名中分別位列第十一和第十二名。

這是否意味著 Gemini 是世界上最好的 AI 聊天機器人？這是否意味著你應該拋棄 ChatGPT…？嗯，並非完全如此。

這些結果並不一定反映這些模型的表現。在大多數其他指標上進行測試時，我們通常看到的排名靠前的選項是 ChatGPT、Gemini、Claude 和 Grok。

然而，這是對這些測試的重要補充。它們幫助我們從人類經驗的角度更好地理解人工智慧。例如，Le Chat 在標準基準測試中得分並不高，但在體驗和可信度方面，它經常被認為是一個優秀的選擇。

雖然 Anthropic 和 OpenAI 在本輪測試中的表現未能達到這一水平，但 Gemini 和 Grok 的表現仍然強勁。這兩家公司通常都會在基準測試中取得高分，這次他們也繼續保持這樣的表現。