灰度_找资源，谈合作，上灰度

Google DeepMind團隊提升Imagen 3提示理解能力，強調Imagen 3在生成圖片與提示的符合度表現上，優於DALL-E 3以及Stable Diffusion 3 Large

Imagen 3為一潛在擴散模型（latent diffusion model），能根據用戶輸入的文字提示產生高品質圖片。Google說，DeepMind團隊大幅提升Imagen 3提示理解能力，使模型能生成了解並遵循長而高度描述性的提示，並生成細節繁複、色彩鮮豔、以及視覺設計更豐富的圖片。

例如它能理解以下提示，並生成圖片：「一個布偶立體模型場景中，出現僻靜森林中的靜謐畫麵，中間置入一個網版印刷效果呈現的機器人，它有巨大渾圓的身軀，但十分善良。機器人肩上停著一隻貓頭鷹，腳邊有隻狐狸。圖片包含5種柔和顏色，並以光線營造寧靜和諧的感覺，可激發對自然之美的沈思和讚頌。」

Imagen 3預設可生成1024x1024解析度的圖片，用戶可以2倍、4倍、或8倍採樣生成想要的圖片。DeepMind團隊將Imagen 3和Imagen 2與其他知名圖片生成AI模型，如DALL-E 3、Midjourney v6、Stable Diffusion（SD）3 Large、SD XL 1.0等進行比較。根據其數據，Imagen 3在生成圖片與提示的符合度，僅次於Midjourney 6，但在詳細提示的符合度（fig 5），及理解數字的能力（fig 6）則是所有模型最佳。團隊也聲稱生成圖片畫質技冠群雄（fig 7），並且是最能在圖片畫質和用戶意圖間取得平衡的模型。

但Google也承認，Imagen 3的計數能力有待加強，且牽涉規模（如大小）、行為，以及包含複合詞的提示，對所有模型都有理解難度。

馬斯克的AI公司xAI也在本週公佈了圖片生成模型Grok-2系列。