登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

Google 推出新一代 Gemini 2.0!可直接使用搜尋、各種模態無縫融合

分享

行銷管道

2024-12-12

Google 在 demo 中,用語音輸入「以長條圖比較電影教父和奧本海默的時長」,並不斷增加其他電影到比較圖表中,Gemini 2.0 能即時搜尋和互動。

Google 推出了新一代 AI 模型 Gemini 2.0,並亮相系列中第一款 Gemini 2.0 Flash 模型,目標是要實現「代理人時代」。即日起 Gemini (聊天機器人)的用戶可在桌機版的模型下拉清單中看到新模型,之後擴大在行動版 App 中釋出。

Gemini 2.0 Flash 關鍵基準測試中的表現優於 1.5 Pro,速度更是兩倍。模型現已作為實驗版,透過 Google AI StudioVertex AI 中的 Gemini API 向開發人員開放,同時 Google 還發布了新的 Multimodal Live API

原生圖像、音訊輸出

Gemini 2.0 支援原生圖像和音訊輸出,這代表模型能理解並生成文字、圖像、影片、音訊和程式碼等多種類型內容。更多 Gemini 2.0 的多模態能力:

  • 理解複雜指令

只要下文字指令不用額外任何動作,就能即時生成和編輯現有圖像。例如下單一指令「想像這輛車裝滿了海灘用品,並將顏色變成有夏天的感覺,請解釋過程」後,Gemini 2.0 會先提供新顏色的汽車圖像並用文字描述,接著就直接再生成另一張汽車裝滿海灘用品的圖像,且汽車樣式全程保持不變。

  • 結合多模態的能力

提供 Gemini 2.0 一張箱子的圖像,箱子側麵印有文字「老舊電子產品」字樣,並下指令「打開盒子,生成一張俯瞰盒子內容物的圖片」,模型能理解圖像中的文字資訊進行推理和生成。

  • 更具表現力的語音互動

不同於傳統的文字轉語音,Gemini 2.0 原生音訊是直接生成語音,因此可透過指令控制 AI 代理人說話的方式,包括其語氣、速度和情感等,還能根據使用者的情境動態調整語音,例如在使用者匆忙時快速說話。另外,AI 也能更自然地在不同語言之間切換。

(Google 的 demo 影片即是用 AI 生成語音)

直接運用 Google 搜尋、程式碼執行工具

Gemini 2.0 也支援原生工具的使用,可調用 Google 搜尋、程式碼執行,以及第三方使用者自訂函數等工具。

Google 在 demo 中,用語音輸入「以長條圖比較電影教父和奧本海默的時長」,並不斷增加其他電影到比較圖表中,Gemini 2.0 能即時搜尋和互動,且特別的是使用者只要簡單描述所需功能就可設定好工具。

為了更好的控制模型使用哪些工具,用戶可在指令中指定模型只在回答特定問題時使用 Google 搜尋。

:Jocelyn
:Sisley

本文初稿為 INSIDE 使用 AI 編撰;快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!

     

     

     

    免責聲明:
    詳情

    Please Play Responsibly:

    Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+