成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Vision
关注
4
综合
百科
VIP
热门
动态
论文
精华
Self-Rewarding Vision-Language Model via Reasoning Decomposition
Arxiv
0+阅读 · 4月27日
Tinted Frames: Question Framing Blinds Vision-Language Models
Arxiv
0+阅读 · 3月19日
RedVLA: Physical Red Teaming for Vision-Language-Action Models
Arxiv
0+阅读 · 4月24日
Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination
Arxiv
0+阅读 · 4月23日
Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study
Arxiv
0+阅读 · 4月20日
MindSet: Vision. A toolbox for testing DNNs on key psychological experiments
Arxiv
0+阅读 · 3月26日
FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching
Arxiv
0+阅读 · 4月27日
Reflection-Based Task Adaptation for Self-Improving VLA
Arxiv
0+阅读 · 4月9日
Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
Arxiv
0+阅读 · 3月27日
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Arxiv
0+阅读 · 2月28日
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
Arxiv
0+阅读 · 2月19日
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
Arxiv
0+阅读 · 2月28日
Architectural Insights for Post-Tornado Damage Recognition
Arxiv
0+阅读 · 2月16日
FC-Vision: Real-Time Visibility-Aware Replanning for Occlusion-Free Aerial Target Structure Scanning in Unknown Environments
Arxiv
0+阅读 · 2月14日
Language-in-the-Loop Culvert Inspection on the Erie Canal
Arxiv
0+阅读 · 2月13日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top