灰度_找资源，谈合作，上灰度

Google DeepMind团队提升Imagen 3提示理解能力，强调Imagen 3在生成图片与提示的符合度表现上，优于DALL-E 3以及Stable Diffusion 3 Large

Imagen 3为一潜在扩散模型（latent diffusion model），能根据用户输入的文本提示产生高品质图片。Google说，DeepMind团队大幅提升Imagen 3提示理解能力，使模型能生成了解并遵循长而高度描述性的提示，并生成细节繁复、色彩鲜艳、以及视觉设计更丰富的图片。

例如它能理解以下提示，并生成图片：「一个布偶立体模型场景中，出现僻静森林中的静谧画面，中间置入一个网版印刷效果呈现的机器人，它有巨大浑圆的身躯，但十分善良。机器人肩上停着一只猫头鹰，脚边有只狐狸。图片包含5种柔和颜色，并以光线营造宁静和谐的感觉，可激发对自然之美的沈思和赞颂。」

Imagen 3默认可生成1024x1024分辨率的图片，用户可以2倍、4倍、或8倍采样生成想要的图片。DeepMind团队将Imagen 3和Imagen 2与其他知名图片生成AI模型，如DALL-E 3、Midjourney v6、Stable Diffusion（SD）3 Large、SD XL 1.0等进行比较。根据其数据，Imagen 3在生成图片与提示的符合度，仅次于Midjourney 6，但在详细提示的符合度（fig 5），及理解数字的能力（fig 6）则是所有模型最佳。团队也声称生成图片画质技冠群雄（fig 7），并且是最能在图片画质和用户意图间取得平衡的模型。

但Google也承认，Imagen 3的计数能力有待加强，且牵涉规模（如大小）、行为，以及包含复合词的提示，对所有模型都有理解难度。

马斯克的AI公司xAI也在本周公布了图片生成模型Grok-2系列。