我體驗了 Gemini Live 的化身來了解這個世界：令人震驚！

人工智能

經過 馬爾萬·穆罕默德

聽到人工智慧用如此古怪友善的語氣讓我收拾工作台，感覺有點怪異。我有點小得意，但我想是時候把那些亂七八糟的工具堆起來，把線纜整理好了。

我妹妹也會同意。但更重要的是，人工智慧「看到」我的桌子後，能夠識別出凌亂的狀況，並提供整理建議，然後立即採取行動。谷歌的Gemini人工智慧聊天機器人現在就能做到這一點，而且功能遠不止於此。

這項技術的秘訣在於對近期推出的名為「Astra 專案」的功能進行了更新。該項目已開發多年，並於本月初正式上線。其總體目標是將無所不知、無所不能且開放智慧的人工智慧引入你的手機。

谷歌用一個略顯平庸的名字來推銷這些強大的功能：Gemini Live，具備相機和螢幕共享功能。這款產品由Google旗下的DeepMind部門開發，最初Google將其設想為一款通用人工智慧助理。可惜的是，最終的名字不夠雄心勃勃。

我們先來說說輔助功能。該功能現已對用戶開放。像素9 和銀河S25但是，如果您擁有一部安卓手機，並訂閱了 Gemini Advanced 服務，即可使用這套全新的工具。

順便說一下，每月費用是 20 美元。我已經在上面提到的兩款手機上測試過了，現在我的 OnePlus 13 也能用了。最棒的是什麼？你不需要任何技術操作就能使用。

只需輕按電源/音量鍵，或滑動螢幕角落即可喚醒 Gemini。無論您正在使用什麼應用，都可以存取全新的相機功能，並將螢幕以疊加層的形式分享到作業系統的任何角落。

了解周遭的世界

我首先將鏡頭對準一幅畫作並詢問相關資訊。 Gemini Live 準確地將其識別為一幅馬杜巴尼風格的繪畫，解讀了其大膽的色彩運用和動物描繪。

然後他給我簡要介紹了歷史，概述了這些年來出現的各種變化。資訊準確無誤，甚至細緻到最小的細節。幸運的是，如果你身處不方便語音通話的地方，也可以選擇與 Gemini 進行文字聊天。

我最喜歡Gemini Live新增的相機和螢幕分享功能的一點是，它不會過於囉嗦。你可以隨時打斷對方，這增強了「自然」對話的吸引力。

我嘗試在各種情況下使用雙子座。但我並沒有做好準備。

他的回答通常都很簡潔，彷彿想給你機會（甚至是鼓勵）提出後續問題，而不是給予冗長的答案。他擅長處理各種主題和視覺場景，但也存在一些不足之處。

它目前還無法使用 Google Lens，這意味著 Gemini 無法將手機螢幕上的圖像與網路上的匹配結果進行比較。此外，如果您讓 Gemini 搜尋某個主題或人物的最新動態，它也無法取得即時資訊。

我問了它一些關於植物種類、餐廳菜單、廣告看板數據收集以及我最近一次流感處方等方面的問題。 Gemini 的表現非常出色，比我之前體驗過的任何人工智慧聊天機器人都要好。

釋放知識庫：深度分析

接下來，我挑戰 Gemini 理解複雜的學術資料。我把一本機器學習方面的書放在攝影機前。 Gemini Live 不僅辨識出了這本書，也概括了書中的內容和要點。這體現了它對機器學習的深刻理解以及概括複雜資訊的能力。

有趣的是，我開始瀏覽頁面，並找到了章節清單。人工智慧辨識出我的瀏覽進度，停止了對話，並詢問我是否對某個特定章節感興趣。這項功能展現了Gemini能夠即時適應並回應使用者互動的能力，使其成為一款強大的互動學習工具。

那一刻我完全懵了。

我讓人工智慧分析一些複雜的主題，它做得相當不錯，甚至超越了頁面上材料的範圍，並從其自身龐大的知識庫中提取資訊。

例如，當被問及皮沙姆·薩尼的小說《塔瑪斯》前言的內容時，人工智慧正確地識別出了其中提及的印度國家文學獎（Sahitya Akademi Award）。隨後，它還提供了頁面上甚至沒有包含的細節，例如作者獲得這項著名文學獎的年份以及小說的情節。這表明人工智慧能夠理解上下文並提取額外資訊。

另一方面，Gemini Live朗讀印地語的表現糟糕透頂。不僅口音很差，Gemini也常發出難以理解的字眼和胡言亂語。在嘗試朗讀烏爾都語、波斯語和阿拉伯語時，它的表現要好得多，但經常會把隨機行中的單字搞混。這顯示Gemini的表現因語言而異，在某些語言方面可能需要大幅改進。

我第一次嘗試使用烏爾都語詩歌朗誦系統時，它不僅識別出了烏爾都語文本，還提供了準確的詩歌概要。最大的挑戰依然是朗讀。聽英文版的烏爾都語朗誦實在令人難以接受。這凸顯了良好的發音和口音在使用者體驗中的重要性，尤其是在處理外語時。

他擅長在意想不到的地方發揮出色。

人工智慧是一個非常棒的問題解決工具，許多基準測試都證明了這一點。我用它測試了一些物理問題，包括熱力學問題、電化學方程式以及手寫筆記本上的統計問題。 Gemini Live 在這些任務中表現得非常出色。

他甚至在創意方面也表現出色。我的姐姐是一位時裝設計師，她對著鏡頭給我看了她的一幅設計草圖，並徵求我的回饋和改進建議。 Gemini Live 首先讚揚了她的設計，將其與幾個時裝品牌的設計理念進行了比較，並提出了一些建議。這些建議對完善設計起到了至關重要的作用。

AI Plus推出時，我姐姐還得到了關於如何將手繪草圖轉換為數位概念的最佳工具的建議。隨後，她還獲得了關於該軟體包的實用資訊以及教程資源。這些指導對於簡化數位設計流程至關重要。

當我把兩顆金霸王電池放進相機取景器時，它不僅準確地辨識出了電池型號，還告訴我哪些本地電商平台可以在幾分鐘內送貨上門。這項功能在識別產品及其本地庫存方面尤其有用。

這兩項服務——Blinkit 和 Swiggy Instamart——目前僅在印度提供，主要面向城市地區。即使在光線昏暗的房間裡，它也能一次辨識出一副有線耳機。這顯示人工智慧能夠在各種條件下辨識物體。

他的主要優勢在於對局勢的敏銳洞察力。

與典型的 Gemini 聊天或 Google 搜尋 AI 概覽部分的內容相比，Gemini Live 對話在分享知識方面採取了更為謹慎的態度，尤其是在涉及敏感資訊時。我注意到，像是食物推薦和醫療方案這類主題的處理方式越來越謹慎，使用者通常會被引導去尋找合適的專家資源。這種謹慎體現了 Google 致力於提供準確可靠資訊的理念，尤其是在需要專業知識的領域。

一些熟悉的挑戰

我的主要結論是，Gemini 的「Project Astra」轉型專案令人印象深刻。它讓我們得以一窺智慧型手機的未來發展方向。如果能進行一些改進、整合以及實現跨應用程式工作流程，它甚至可能讓Google搜尋顯得過時。但就目前而言，它還存在一些明顯的缺陷。

我曾幾次注意到記憶系統故障。當要求人工智慧識別相機畫面中的健身追蹤器時，它正確識別為三星 Galaxy Fit 3。然而，當我追問時，它卻錯誤地將該設備識別為華為健身追蹤器。

它甚至會公然撒謊。而且我可以毫不誇張地說，它確實如此。例如，當我讓它總結我對那款穿戴裝置的評測時，人工智慧竟然回答說 Digital Trends 還沒有發布評測。事實上，這篇文章一週前就已經發表了。

之後，我開啟螢幕分享，讓他瀏覽我作者頁面上的一些文章。 Gemini 對文章內容的解釋還不錯，但偶爾會對上下文理解有誤。例如，他錯誤地指出只有英特爾和 AMD 才能讓神經處理單元 (NPU) 獲得該徽章。副駕駛+.

另一方面，文章明確指出，高通率先達到了這個標準，領先其他競爭對手。直到去年年底，AMD 和英特爾才最終迎難而上，憑藉一系列新型處理器達到了人工智慧晶片的基準標準。

在討論一篇文章的過程中，他突然又犯了記憶錯誤。他沒有總結正在討論的文章內容，而是轉而講述他之前透過螢幕分享看到的那篇文章。當我打斷他時，Gemini 糾正了他的錯誤。

我注意到非英語旁白的另一個問題是，Gemini Live 會在旁白過程中隨機改變聲音和語速。這非常煩人，而且發音完全是機械式的，與他們原本自然流暢的英語水平相去甚遠。

機器視覺在辨識規範字體方面也存在困難。它曾多次自信地給出錯誤訊息，而當被要求更正時，人工智慧聲稱找不到關於該主題的最新資訊。這種情況雖然罕見，但Gemini的錯誤仍然存在。

總而言之，我認為 Gemini Live 的相機和螢幕共享功能是迄今為止人工智慧領域最偉大的飛躍之一。它也是迄今為止生成式人工智慧最實用、最有價值的應用之一。它只需要增加一些多樣性，並解決「自信說謊者」的問題。

現在一切肯定都在朝著正確的方向發展，而且發展勢頭非常強勁，但距離成為實現未來科技夢想的理想人工智慧夥伴，還有幾個關鍵的里程碑需要實現。

雙子座