Google推出 Gemini 2.0 Pro 和 Flash-Lite，將 Flash 思維與 YouTube、地圖和搜尋連結起來

谷歌的 Gemini 系列大型語言模型 (LLM) 在大約一年前推出時遭遇了一些尷尬的錯誤生成圖像，開局並不順利，但此後一直在穩步改進，該公司似乎決心將其第二代產品——Gemini 2.0——打造成為迄今為止面向消費者和企業的最大、最好的產品。

贗品宣布該公司宣佈公開發布 Gemini 2.0 Flash，推出 Gemini 2.0 Flash-Lite，並發布 Gemini 2.0 Pro 測試版。

這些模型旨在支援開發人員和企業，現在可以透過 Google AI Studio 和 Vertex AI 使用，其中 Flash-Lite 可供公開預覽，Pro 可供早期測試。

GoogleDeepMind首席技術長Koray Cavukcioglu在公司部落格文章中宣布了這一消息，他寫道：「所有這些型號都將在發佈時配備多媒體輸入和文字輸出功能，而Plus多媒體功能將在未來幾個月內面向公眾開放。」這表明，即使面對像谷歌這樣的競爭對手，仍然擁有獨特的優勢。深度搜尋和 OpenAI 在推出強勁競爭對手。

谷歌利用其多媒體功能

DeepSeek-R1 和 OpenAI 的新 o3-mini 模型接受多媒體輸入 - 例如圖像、檔案上傳或附件。

雖然 R1 型號可以在其網站和行動聊天應用程式上接受它們，但它使用光學字元辨識 (OCR)，一項已有 60 多年歷史的技術，僅從這些上傳內容中提取文字 - 並且不理解或分析其中的任何其他特徵。

然而，它們都代表了一種新型的「推理」模型，這類模型有意花費更長的時間來思考答案，並反思其「思維鏈」和答案的有效性。這與典型的大型語言模型（例如 Gemini 2.0 Pro 系列）截然不同，因此將 Gemini 2.0、DeepSeek-R1 和 OpenAI o3 進行比較就像是將蘋果和橘子進行比較一樣。

但今天谷歌在戰略層面也傳來了一些消息：谷歌執行長桑達爾·皮查伊透過…宣布了這個消息。 X平台關於應用程式更新谷歌雙子座 Gemini 2.0 Flash Thinking 型號適用於 iOS 和 Android 行動裝置。該模型可連接到 Google 地圖、YouTube 和 Google 搜索，從而實現一系列全新的 AI 驅動搜索和互動功能，這是 DeepSeek 和 OpenAI 等新興競爭對手在沒有這些服務的情況下無法實現的。

我在撰寫本文時，在我的 iPhone 上的 Google Gemini iOS 應用上簡單試用了一下，根據我的初步查詢，它給我留下了深刻的印象，它找到了過去一個月觀看次數最多的 10 個 YouTube 視頻之間的相似之處，並在幾秒鐘內給了我附近醫生診所及其營業時間的列表。

Gemini 2.0 Flash 公開發布

Gemini 2.0 Flash 模型最初以測試版形式推出，現已成為十二月，現已準備好投入生產。

它專為高效的人工智慧應用而設計，可提供低延遲響應並支援大規模多模態推理。

與競爭對手相比，它的主要優勢之一是其上下文窗口，即用戶可以在與 LLM 支援的聊天機器人或 API 的一次來回互動中，添加獎勵並收到的代幣數量。

雖然許多領先的模型，例如上週首次亮相的 OpenAI 的新型 o3-mini，支援 2.0 萬個令牌或更少（相當於 400 到 500 頁的小說），但 Gemini 2.0 Flash 支援 100 萬個令牌，這意味著它可以處理海量資訊，使其特別適用於高頻、大規模任務。

Gemini 2.0 Flash-Lite：低成本人工智慧解決方案

Gemini 2.0 Flash-Lite 是一款全新的大型語言模型，旨在提供經濟高效的 AI 解決方案，同時又不犧牲品質。

Google DeepMind 報告稱，Flash-Lite 在 MMLU Pro（77.6% 對 67.3%）和 Bird SQL（57.4% 對 45.6%）等外部基準測試中的表現優於其全尺寸（參數化程度更高）的前代產品 Gemini 1.5 Flash，同時保持了相同的價格和速度。

它還支援多媒體輸入，並具有 100 萬個令牌的上下文窗口，類似於完整的 Flash 模型。

Flash-Lite 目前可透過 Google AI Studio 和 Vertex AI 進行公開預覽，預計將在未來幾週內全面上市。

如下表所示，Gemini 2.0 Flash-Lite 的定價為每百萬代幣 0.075 美元（輸入）和每百萬代幣 0.30 美元（輸出）。 Flash-Lite 對於開發者來說是一個非常經濟實惠的選擇，在大多數基準測試中效能優於 Gemini 1.5 Flash，同時保持了相同的成本結構。

Logan Kilpatrick 強調了 Gemini 2.0 Flash 型號的成本和價值，因為 X平台上的男性“Gemini 2.0 Flash 是所有 LLM 車型中價值最高的，現在是時候建造了！”

事實上，與其他可透過提供者 API 取得的領先傳統 LLM 模型相比，例如： OpenAI 4o-mini （每百萬 I/O 代幣 0.15 美元/0.6 美元），人擇克勞德（每百萬 I/O 代幣 0.8 美元/4 美元）甚至 DeepSeek 的傳統 LLM V3（0.14 美元/0.28 美元），Gemini 2.0 Flash 似乎是最物有所值的。

Gemini 2.0 Pro Beta 版發布，包含 2 萬個上下文視窗代幣

Gemini 2.0 Pro（測試版）模型現已開放測試，適合需要更進階 AI 功能的使用者。

Google DeepMind 將此模型描述為其在程式設計效能和處理複雜查詢方面最強大的模型。它擁有 2 萬字符的上下文視窗和增強的推理能力，並能夠與 Google 搜尋和程式碼執行等外部工具整合。

Red Dragon AI 聯合創始人兼首席執行官 Sam Witteveen 是谷歌的外部機器學習開發專家，經常與 VentureBeat 合作，他討論了： YouTube評論中的專業模特“新的 Gemini 2.0 Pro 型號擁有 200 萬個圖標上下文窗口，支援小部件、代碼執行、函數調用以及與 Google 搜索的集成——我們在 Pro 1.5 中擁有的一切，但有所改進。”

他還指出谷歌在人工智慧開發方面採取了迭代方法：“谷歌策略的一個關鍵區別在於，它會在模型正式發布（GA）之前發布測試版，從而可以根據反饋進行快速迭代。”

性能基準測試進一步展現了 Gemini 2.0 系列車型的強大性能。例如，Gemini 2.0 Pro 在推理、多語言理解和長上下文處理等任務上的表現都優於 Flash 和 Flash-Lite。

人工智慧安全與未來發展

除了這些更新之外，GoogleDeepMind還為其Gemini 2.0模型實施了新的安全措施。該公司正在利用強化學習技術來提高反應準確率，並使用人工智慧來評估和改進其輸出結果。此外，還採用了自動化安全測試來識別漏洞，包括間接聲明注入威脅。

展望未來，Google DeepMind 計劃擴展 Gemini 2.0 系列模型的功能，預計未來幾個月內將推出除文本之外的其他方法。

透過這些更新，Google正在加強其在人工智慧開發領域的投入，推出了一系列旨在提高效率、降低成本並解決高級問題的模型，以應對 DeepSeek 的崛起，並推出自己的一系列模型，這些模型涵蓋了從功能強大到非常強大，從非常實惠到稍微便宜一些（但仍然實惠）的各種類型。

這是否足以幫助Google打入企業級人工智慧市場？該市場曾由 OpenAI 主導，如今又被 DeepSeek 佔據。我們將持續關注並為您帶來最新消息！

如果你想給老闆留下深刻印象，VB Daily 將助你一臂之力。我們為你提供企業如何運用生成式人工智慧的內幕消息，涵蓋組織轉型到實際部署等各個方面，讓你能夠分享真知灼見，從而最大化投資回報率。