Google 推出新一代 Gemini 2.0！可直接使用搜尋、各種模態無縫融合-灰度官网

Google 在 demo 中，用語音輸入「以長條圖比較電影教父和奧本海默的時長」，並不斷增加其他電影到比較圖表中，Gemini 2.0 能即時搜尋和互動。

Google 推出了新一代 AI 模型 Gemini 2.0，並亮相系列中第一款 Gemini 2.0 Flash 模型，目標是要實現「代理人時代」。即日起 Gemini （聊天機器人）的用戶可在桌機版的模型下拉清單中看到新模型，之後擴大在行動版 App 中釋出。

Gemini 2.0 Flash 關鍵基準測試中的表現優於 1.5 Pro，速度更是兩倍。模型現已作為實驗版，透過 Google AI Studio 和 Vertex AI 中的 Gemini API 向開發人員開放，同時 Google 還發布了新的 Multimodal Live API。

原生圖像、音訊輸出

Gemini 2.0 支援原生圖像和音訊輸出，這代表模型能理解並生成文字、圖像、影片、音訊和程式碼等多種類型內容。更多 Gemini 2.0 的多模態能力：

理解複雜指令

只要下文字指令不用額外任何動作，就能即時生成和編輯現有圖像。例如下單一指令「想像這輛車裝滿了海灘用品，並將顏色變成有夏天的感覺，請解釋過程」後，Gemini 2.0 會先提供新顏色的汽車圖像並用文字描述，接著就直接再生成另一張汽車裝滿海灘用品的圖像，且汽車樣式全程保持不變。

結合多模態的能力

提供 Gemini 2.0 一張箱子的圖像，箱子側麵印有文字「老舊電子產品」字樣，並下指令「打開盒子，生成一張俯瞰盒子內容物的圖片」，模型能理解圖像中的文字資訊進行推理和生成。

更具表現力的語音互動

不同於傳統的文字轉語音，Gemini 2.0 原生音訊是直接生成語音，因此可透過指令控制 AI 代理人說話的方式，包括其語氣、速度和情感等，還能根據使用者的情境動態調整語音，例如在使用者匆忙時快速說話。另外，AI 也能更自然地在不同語言之間切換。

(Google 的 demo 影片即是用 AI 生成語音)

直接運用 Google 搜尋、程式碼執行工具

Gemini 2.0 也支援原生工具的使用，可調用 Google 搜尋、程式碼執行，以及第三方使用者自訂函數等工具。

Google 在 demo 中，用語音輸入「以長條圖比較電影教父和奧本海默的時長」，並不斷增加其他電影到比較圖表中，Gemini 2.0 能即時搜尋和互動，且特別的是使用者只要簡單描述所需功能就可設定好工具。

為了更好的控制模型使用哪些工具，用戶可在指令中指定模型只在回答特定問題時使用 Google 搜尋。

：Jocelyn
：Sisley

本文初稿為 INSIDE 使用 AI 編撰；快加入 INSIDE Google News 按下追蹤，給你最新、最 IN 的科技新聞！