CulinaryCut-VLAP：一种基于力感知材料点方法的食物切割视觉-语言-动作-物理框架 (CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method) - 专知论文

会员服务 ·

0

切割 · 变形 · 数据集 · 力感知 · 操作 ·

CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method

翻译：CulinaryCut-VLAP：一种基于力感知材料点方法的食物切割视觉-语言-动作-物理框架

Hyunseo Koh,Chang-Yong Song,Youngjae Choi,Misa Viveiros,David Hyde,Heewon Kim

from arxiv, 16 pages; 15 figures; 5 tables

Food cutting is a highly practical yet underexplored application at the intersection of vision and robotic manipulation. The task remains challenging because interactions between the knife and deformable materials are highly nonlinear and often entail large deformations, frequent contact, and topological change, which in turn hinder stable and safe large-scale data collection. To address these challenges, we propose a unified framework that couples a vision-language-action (VLA) dataset with a physically realistic cutting simulator built on the material point method (MPM). Our simulator adopts MLS-MPM as its computational core, reducing numerical dissipation and energy drift while preserving rotational and shear responses even under topology-changing cuts. During cutting, forces and stress distributions are estimated from impulse exchanges between particles and the grid, enabling stable tracking of transient contact forces and energy transfer. We also provide a benchmark dataset that integrates diverse cutting trajectories, multi-view visual observations, and fine-grained language instructions, together with force--torque and tool--pose labels to provide physically consistent training signals. These components realize a learning--evaluation loop that respects the core physics of cutting and establishes a safe, reproducible, and scalable foundation for advancing VLA models in deformable object manipulation.

翻译：食物切割是视觉与机器人操作交叉领域中一项极具实用性但尚未得到充分探索的应用。该任务仍具挑战性，因为刀具与可变形材料之间的相互作用具有高度非线性，通常涉及大变形、频繁接触及拓扑变化，从而阻碍了稳定、安全的大规模数据采集。为应对这些挑战，我们提出一个统一框架，将视觉-语言-动作数据集与基于材料点方法构建的物理真实切割模拟器相耦合。我们的模拟器采用MLS-MPM作为计算核心，在保持旋转和剪切响应的同时减少数值耗散与能量漂移，即使在进行拓扑变化的切割时亦然。切割过程中，通过粒子与网格间的冲量交换估算力与应力分布，从而实现对瞬态接触力与能量传递的稳定追踪。我们还提供了一个基准数据集，该数据集整合了多样化的切割轨迹、多视角视觉观测、细粒度语言指令，以及力-扭矩和工具-位姿标签，以提供物理一致的训练信号。这些组件共同实现了一个尊重切割核心物理规律的学习-评估闭环，为推进可变形物体操控中的VLA模型奠定了安全、可复现且可扩展的基础。

0

相关内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

基于Transformer的视觉分割技术进展

基于Transformer的视觉分割技术进展

专知会员服务

20+阅读 · 2025年2月10日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

专知会员服务

29+阅读 · 2022年4月9日

食品图像识别方法综述

食品图像识别方法综述

专知会员服务

21+阅读 · 2022年3月21日

深度学习下的医学影像分割算法综述

专知会员服务

116+阅读 · 2021年1月11日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

专知会员服务

106+阅读 · 2020年1月19日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

最全综述 | 图像分割算法

最全综述 | 图像分割算法

计算机视觉life

14+阅读 · 2019年6月20日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

深度 | 语义分割网络DeepLab-v3的架构设计思想和TensorFlow实现

深度 | 语义分割网络DeepLab-v3的架构设计思想和TensorFlow实现

机器之心

11+阅读 · 2018年3月26日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

基于多光源图像融合的织物纱线分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

材质感知与识别及其在大洋矿物分类中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于螳螂前足砍切机理的仿生圆盘切割刀具优化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning

Arxiv

0+阅读 · 2月4日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement

Arxiv

0+阅读 · 1月28日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks

Arxiv

0+阅读 · 1月21日

Periodic robust robotic rock chop via virtual model control

Arxiv

0+阅读 · 1月14日

BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation

Arxiv

0+阅读 · 1月12日

A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering

Arxiv

0+阅读 · 1月8日

FORTE: Tactile Force and Slip Sensing on Compliant Fingers for Delicate Manipulation

Arxiv

0+阅读 · 1月5日

Online Estimation and Manipulation of Articulated Objects

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

基于Transformer的视觉分割技术进展

基于Transformer的视觉分割技术进展

专知会员服务

20+阅读 · 2025年2月10日

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

Transformer如何做视觉分割？南洋理工最新《基于Transformer的视觉分割》综述，详述120多个深度分割模型

专知会员服务

56+阅读 · 2023年4月27日

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

AI如何用于食品？中科院计算所「食品图像识别」最新2022研究综述，阐述食品识别方法与应用

专知会员服务

29+阅读 · 2022年4月9日

食品图像识别方法综述

食品图像识别方法综述

专知会员服务

21+阅读 · 2022年3月21日

深度学习下的医学影像分割算法综述

专知会员服务

116+阅读 · 2021年1月11日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

深度学习图像分割综述论文最新版，Image Segmentation Using Deep Learning: A Survey

专知会员服务

93+阅读 · 2020年4月11日

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

专知会员服务

106+阅读 · 2020年1月19日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

最全综述 | 图像分割算法

最全综述 | 图像分割算法

计算机视觉life

14+阅读 · 2019年6月20日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

深度 | 语义分割网络DeepLab-v3的架构设计思想和TensorFlow实现

深度 | 语义分割网络DeepLab-v3的架构设计思想和TensorFlow实现

机器之心

11+阅读 · 2018年3月26日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

GeoLanG: Geometry-Aware Language-Guided Grasping with Unified RGB-D Multimodal Learning

Arxiv

0+阅读 · 2月4日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement

Arxiv

0+阅读 · 1月28日

MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance

Arxiv

0+阅读 · 1月25日

TacUMI: A Multi-Modal Universal Manipulation Interface for Contact-Rich Tasks

Arxiv

0+阅读 · 1月21日

Periodic robust robotic rock chop via virtual model control

Arxiv

0+阅读 · 1月14日

BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation

Arxiv

0+阅读 · 1月12日

A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering

Arxiv

0+阅读 · 1月8日

FORTE: Tactile Force and Slip Sensing on Compliant Fingers for Delicate Manipulation

Arxiv

0+阅读 · 1月5日

Online Estimation and Manipulation of Articulated Objects

Arxiv

0+阅读 · 1月4日

相关基金

基于多光源图像融合的织物纱线分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

材质感知与识别及其在大洋矿物分类中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于螳螂前足砍切机理的仿生圆盘切割刀具优化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员