登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

Google圖片生成模型Imagen 3在美上線

分享

行銷管道

2024-08-16

Google DeepMind團隊提升Imagen 3提示理解能力,強調Imagen 3在生成圖片與提示的符合度表現上,優於DALL-E 3以及Stable Diffusion 3 Large

Imagen 3為一潛在擴散模型(latent diffusion model),能根據用戶輸入的文字提示產生高品質圖片。Google說,DeepMind團隊大幅提升Imagen 3提示理解能力,使模型能生成了解並遵循長而高度描述性的提示,並生成細節繁複、色彩鮮豔、以及視覺設計更豐富的圖片。

例如它能理解以下提示,並生成圖片:「一個布偶立體模型場景中,出現僻靜森林中的靜謐畫麵,中間置入一個網版印刷效果呈現的機器人,它有巨大渾圓的身軀,但十分善良。機器人肩上停著一隻貓頭鷹,腳邊有隻狐狸。圖片包含5種柔和顏色,並以光線營造寧靜和諧的感覺,可激發對自然之美的沈思和讚頌。」

Imagen 3預設可生成1024x1024解析度的圖片,用戶可以2倍、4倍、或8倍採樣生成想要的圖片。DeepMind團隊將Imagen 3和Imagen 2與其他知名圖片生成AI模型,如DALL-E 3、Midjourney v6、Stable Diffusion(SD)3 Large、SD XL 1.0等進行比較。根據其數據,Imagen 3在生成圖片與提示的符合度,僅次於Midjourney 6,但在詳細提示的符合度(fig 5),及理解數字的能力(fig 6)則是所有模型最佳。團隊也聲稱生成圖片畫質技冠群雄(fig 7),並且是最能在圖片畫質和用戶意圖間取得平衡的模型。

Google也承認,Imagen 3的計數能力有待加強,且牽涉規模(如大小)、行為,以及包含複合詞的提示,對所有模型都有理解難度。

馬斯克的AI公司xAI也在本週公佈了圖片生成模型Grok-2系列。

免責聲明:
詳情

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+