Recent text-guided image editing (TIE) models have achieved remarkable progress, while many edited images still suffer from issues such as artifacts, unexpected editings, unaesthetic contents. Although some benchmarks and methods have been proposed for evaluating edited images, scalable evaluation models are still lacking, which limits the development of human feedback reward models for image editing. To address the challenges, we first introduce \textbf{EditHF-1M}, a million-scale image editing dataset with over 29M human preference pairs and 148K human mean opinion ratings, both evaluated from three dimensions, \textit{i.e.}, visual quality, instruction alignment, and attribute preservation. Based on EditHF-1M, we propose \textbf{EditHF}, a multimodal large language model (MLLM) based evaluation model, to provide human-aligned feedback from image editing. Finally, we introduce \textbf{EditHF-Reward}, which utilizes EditHF as the reward signal to optimize the text-guided image editing models through reinforcement learning. Extensive experiments show that EditHF achieves superior alignment with human preferences and demonstrates strong generalization on other datasets. Furthermore, we fine-tune the Qwen-Image-Edit using EditHF-Reward, achieving significant performance improvements, which demonstrates the ability of EditHF to serve as a reward model to scale-up the image editing. Both the dataset and code will be released in our GitHub repository: https://github.com/IntMeGroup/EditHF.


翻译:近年来,文本引导的图像编辑模型取得了显著进展,但许多编辑后的图像仍存在伪影、意外编辑、内容不美观等问题。尽管已有一些基准和方法被提出用于评估编辑后的图像,但可扩展的评估模型仍然缺乏,这限制了面向图像编辑的人类反馈奖励模型的发展。为应对这些挑战,我们首先引入了 **EditHF-1M**,这是一个百万规模的图像编辑数据集,包含超过 2900 万个人类偏好对和 14.8 万个人类平均意见评分,两者均从三个维度进行评估,即视觉质量、指令对齐和属性保持。基于 EditHF-1M,我们提出了 **EditHF**,一个基于多模态大语言模型的评估模型,用于提供与人类对齐的图像编辑反馈。最后,我们引入了 **EditHF-Reward**,它利用 EditHF 作为奖励信号,通过强化学习来优化文本引导的图像编辑模型。大量实验表明,EditHF 在人类偏好对齐方面表现出色,并在其他数据集上展现出强大的泛化能力。此外,我们使用 EditHF-Reward 对 Qwen-Image-Edit 进行微调,实现了显著的性能提升,这证明了 EditHF 作为奖励模型以规模化提升图像编辑的能力。数据集和代码均将在我们的 GitHub 仓库中发布:https://github.com/IntMeGroup/EditHF。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 13分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关资讯
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
人脸专集5 | 最新的图像质量评价
计算机视觉战队
27+阅读 · 2019年4月13日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员