0.7秒实现精准图像编辑！智象未来团队提出全新自回归图像编辑框架VAREdit

作者：集小微 7小时前

来源：网易 #智象未来# #VAR架构# #图像编辑#

1999

据智象未来微信公众号8月25日消息，为了攻克效果“失控”与效率低下等问题，智象未来团队将视觉自回归（VAR）架构引入图像编辑，提出了全新的指令引导编辑框架VAREdit。

在EMU-Edit和PIE-Bench这两个业界公认的基准测试数据集上，VAREdit在传统的CLIP的评价指标和更能体现编辑精准性的GPT指标均取得了显著优势。其中，VAREdit-8.4B在GPT-Balance指标上较ICEdit和UltraEdit分别提升41.5%和30.8%；轻量版VAREdit-2.2B可在0.7秒内完成512×512图像高保真编辑。目前，VAREdit已在GitHub和Hugging Face平台全面开源。