The aesthetic quality assessment task is crucial for developing a human-aligned quantitative evaluation system for AIGC. However, its inherently complex nature, spanning visual perception, cognition, and emotion, poses fundamental challenges. Although aesthetic descriptions offer a viable representation of this complexity, two critical challenges persist: (1) data scarcity and imbalance: existing dataset overly focuses on visual perception and neglects deeper dimensions due to the expensive manual annotation; and (2) model fragmentation: current visual networks isolate aesthetic attributes with multi-branch encoder, while multimodal methods represented by contrastive learning struggle to effectively process long-form textual descriptions. To resolve challenge (1), we first present the Refined Aesthetic Description (RAD) dataset, a large-scale (70k), multi-dimensional structured dataset, generated via an iterative pipeline without heavy annotation costs and easy to scale. To address challenge (2), we propose ArtQuant, an aesthetics assessment framework for artistic images which not only couples isolated aesthetic dimensions through joint description generation, but also better models long-text semantics with the help of LLM decoders. Besides, theoretical analysis confirms this symbiosis: RAD's semantic adequacy (data) and generation paradigm (model) collectively minimize prediction entropy, providing mathematical grounding for the framework. Our approach achieves state-of-the-art performance on several datasets while requiring only 33% of conventional training epochs, narrowing the cognitive gap between artistic images and aesthetic judgment. We will release both code and dataset to support future research.


翻译:美学质量评估任务对于构建与人类对齐的AIGC定量评价体系至关重要。然而,其本质跨越视觉感知、认知与情感,具有内在复杂性,构成了根本性挑战。尽管美学描述为表征此种复杂性提供了可行方案,但两大关键挑战依然存在:(1) 数据稀缺与不平衡:现有数据集因高昂的人工标注成本过度聚焦于视觉感知,忽视了更深层维度;(2) 模型割裂:当前视觉网络通过多分支编码器孤立处理美学属性,而以对比学习为代表的多模态方法难以有效处理长文本描述。为解决挑战(1),我们首先提出了精炼美学描述数据集,这是一个通过迭代流程生成的大规模、多维度结构化数据集,无需高昂标注成本且易于扩展。针对挑战(2),我们提出了ArtQuant艺术图像美学评估框架,该框架不仅通过联合描述生成耦合了孤立的美学维度,还借助LLM解码器更好地建模长文本语义。此外,理论分析证实了这种共生关系:RAD的语义充分性与生成范式共同最小化预测熵,为框架提供了数学基础。我们的方法在多个数据集上取得了最先进的性能,同时仅需传统训练轮次的33%,从而缩小了艺术图像与美学判断之间的认知鸿沟。我们将公开代码与数据集以支持未来研究。

0
下载
关闭预览

相关内容

艺术迄今依旧没有公认的定义,目前广义的艺术乃是由具有智能思考能力的动物,透过各种形式及工具以表达其情感与意识,因而产生的结果。艺术不只存在于人类社会中,也存在于其他相对高等的动物。
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
专知会员服务
34+阅读 · 2021年9月29日
图像修复研究进展综述
专知
20+阅读 · 2021年3月9日
专家报告 | 个性化图像美学评价
中国图象图形学报
14+阅读 · 2020年7月15日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员