Google 推出了新一代 AI 模型 Gemini 2.0,並亮相系列中第一款 Gemini 2.0 Flash 模型,目標是要實現「代理人時代」。即日起 Gemini (聊天機器人)的用戶可在桌機版的模型下拉清單中看到新模型,之後擴大在行動版 App 中釋出。
Gemini 2.0 Flash 關鍵基準測試中的表現優於 1.5 Pro,速度更是兩倍。模型現已作為實驗版,透過 Google AI Studio 和 Vertex AI 中的 Gemini API 向開發人員開放,同時 Google 還發布了新的 Multimodal Live API。
原生圖像、音訊輸出
Gemini 2.0 支援原生圖像和音訊輸出,這代表模型能理解並生成文字、圖像、影片、音訊和程式碼等多種類型內容。更多 Gemini 2.0 的多模態能力:
- 理解複雜指令
只要下文字指令不用額外任何動作,就能即時生成和編輯現有圖像。例如下單一指令「想像這輛車裝滿了海灘用品,並將顏色變成有夏天的感覺,請解釋過程」後,Gemini 2.0 會先提供新顏色的汽車圖像並用文字描述,接著就直接再生成另一張汽車裝滿海灘用品的圖像,且汽車樣式全程保持不變。
- 結合多模態的能力
提供 Gemini 2.0 一張箱子的圖像,箱子側麵印有文字「老舊電子產品」字樣,並下指令「打開盒子,生成一張俯瞰盒子內容物的圖片」,模型能理解圖像中的文字資訊進行推理和生成。
- 更具表現力的語音互動
不同於傳統的文字轉語音,Gemini 2.0 原生音訊是直接生成語音,因此可透過指令控制 AI 代理人說話的方式,包括其語氣、速度和情感等,還能根據使用者的情境動態調整語音,例如在使用者匆忙時快速說話。另外,AI 也能更自然地在不同語言之間切換。
(Google 的 demo 影片即是用 AI 生成語音)
直接運用 Google 搜尋、程式碼執行工具
Gemini 2.0 也支援原生工具的使用,可調用 Google 搜尋、程式碼執行,以及第三方使用者自訂函數等工具。
Google 在 demo 中,用語音輸入「以長條圖比較電影教父和奧本海默的時長」,並不斷增加其他電影到比較圖表中,Gemini 2.0 能即時搜尋和互動,且特別的是使用者只要簡單描述所需功能就可設定好工具。
為了更好的控制模型使用哪些工具,用戶可在指令中指定模型只在回答特定問題時使用 Google 搜尋。
:Jocelyn
:Sisley
本文初稿為 INSIDE 使用 AI 編撰;快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!