Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs - 专知论文

会员服务 ·

0

细粒度 · 粒度 · 人体姿态 · 多模 · 模态 ·

Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs

翻译：细粒度人体姿态编辑评估：基于层选择性多模态大语言模型的方法

Ningyu Sun,Zhaolin Cai,Zitong Xu,Peihang Chen,Huiyu Duan,Yichao Yan,Xiongkuo Min,Xiaokang Yang

Text-guided human pose editing has gained significant traction in AIGC applications. However,it remains plagued by structural anomalies and generative artifacts. Existing evaluation metrics often isolate authenticity detection from quality assessment, failing to provide fine-grained insights into pose-specific inconsistencies. To address these limitations, we introduce HPE-Bench, a specialized benchmark comprising 1,700 standardized samples from 17 state-of-the-art editing models, offering both authenticity labels and multi-dimensional quality scores. Furthermore, we propose a unified framework based on layer-selective multimodal large language models (MLLMs). By employing contrastive LoRA tuning and a novel layer sensitivity analysis (LSA) mechanism, we identify the optimal feature layer for pose evaluation. Our framework achieves superior performance in both authenticity detection and multi-dimensional quality regression, effectively bridging the gap between forensic detection and quality assessment.

翻译：文本引导的人体姿态编辑在AIGC应用中已获得广泛关注，但其仍受结构异常和生成伪影的困扰。现有评估指标常将真实性检测与质量评估割裂，无法提供针对姿态特定不一致性的细粒度分析。为突破这些局限，我们提出HPE-Bench——一个包含来自17个前沿编辑模型的1700个标准化样本的专业基准，同时提供真实性标签与多维度质量评分。进一步，我们提出了基于层选择性多模态大语言模型（MLLMs）的统一框架。通过采用对比LoRA调优和创新的层敏感度分析（LSA）机制，我们确定了用于姿态评估的最优特征层。该框架在真实性检测和多维度质量回归任务中均实现卓越性能，有效弥合了取证检测与质量评估之间的鸿沟。

0

相关内容

细粒度

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

专知会员服务

82+阅读 · 2023年8月29日

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

专知会员服务

10+阅读 · 2022年3月19日

ICCV 2021 | 半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）

专知会员服务

12+阅读 · 2021年10月1日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

40+阅读 · 2020年12月29日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

专知会员服务

26+阅读 · 2019年8月11日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Benchmarking 3D Human Pose Estimation Models under Occlusions

Arxiv

0+阅读 · 2月10日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Efficient LLM Moderation with Multi-Layer Latent Prototypes

Arxiv

0+阅读 · 2月6日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs

Arxiv

0+阅读 · 2月2日

CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models

Arxiv

0+阅读 · 1月29日

Best Arm Identification with LLM Judges and Limited Human

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 22分钟前

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 24分钟前

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

3+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

19+阅读 · 4月19日

相关VIP内容

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

复旦最新《基于文本到图像扩散模型的多模态引导图像编辑》综述

专知会员服务

16+阅读 · 2024年6月21日

基于深度学习的物体姿态估计综述

基于深度学习的物体姿态估计综述

专知会员服务

26+阅读 · 2024年5月15日

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

专知会员服务

82+阅读 · 2023年8月29日

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

【CVPR 2022】基于粗粒度和细粒度特征匹配的视频描述评估，EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

专知会员服务

10+阅读 · 2022年3月19日

ICCV 2021 | 半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）

专知会员服务

12+阅读 · 2021年10月1日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

40+阅读 · 2020年12月29日

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

【AAAI2020论文-清华大学】基于人物稀疏数据的预训练个性化对话生成模型（A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data）

专知会员服务

29+阅读 · 2019年11月15日

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

【IJCAI 2019】细粒度的意见挖掘:当前趋势和前沿维度（Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions），虞剑飞

专知会员服务

26+阅读 · 2019年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

高效视频扩散模型：进展与挑战

军事通信系统与设备的技术演进综述

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

乌克兰前线的五项创新

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

Benchmarking 3D Human Pose Estimation Models under Occlusions

Arxiv

0+阅读 · 2月10日

Enhancing Generative AI Image Refinement with Scribbles and Annotations: A Comparative Study of Multimodal Prompts

Arxiv

0+阅读 · 2月9日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

Efficient LLM Moderation with Multi-Layer Latent Prototypes

Arxiv

0+阅读 · 2月6日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs

Arxiv

0+阅读 · 2月2日

CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models

Arxiv

0+阅读 · 1月29日

Best Arm Identification with LLM Judges and Limited Human

Arxiv

0+阅读 · 1月29日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于毛孔尺度面部特征的高效人脸识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员