MGIE(多模态大语言模型引导的编辑)是一项由苹果开源的技术,利用多模态大型语言模型(MLLMs)生成图像编辑指令,通过端到端训练,捕捉视觉想象力并执行图像处理操作,使图像编辑更加智能、直观。
需求人群: "用户可以通过自然语言直观地描述图像编辑需求,如改变颜色、调整大小等,无需复杂的描述或区域掩码,使图像编辑更加自由和轻松。" 使用场景示例: 通过指令 ‘提亮图像’ 实现图像编辑使用 ‘加冷色调’ 指令调整图像颜色尝试 ‘添加模糊效果’ 自然语言编辑 产品特色: 通过自然语言指令编辑图像改变颜色、调整大小、添加特效等端到端训练捕捉视觉想象力简化图像编辑流程