多模态论文 - 专知

会员服务 ·

多模态

多模态

MathVis-Fine: Aligning Visual Supervision with Necessity via Progressive Dependency-Guided Training for Multimodal Mathematical Reasoning

Arxiv

0+阅读 · 6月16日

SMGFM: Spectral Multimodal Graph Pretraining for Multimodal-Attributed Graphs

SMGFM: Spectral Multimodal Graph Pretraining for Multimodal-Attributed Graphs

Arxiv

0+阅读 · 6月16日

Last But Not Least: Boundary Attention CalibratiON for Multimodal KV Cache Compression

Arxiv

0+阅读 · 6月16日

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Arxiv

0+阅读 · 6月15日

Discovering Functionally Selective Brain Regions with a Deep Topographic Multimodal Model

Arxiv

0+阅读 · 6月16日

BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM

Arxiv

0+阅读 · 6月15日

Response-Aware Multimodal Learning for Post-Treatment Visual Acuity Forecasting

Arxiv

0+阅读 · 6月16日

Million-scale multimodal pollen microscopy with expert-guided foundation models

Arxiv

0+阅读 · 6月16日

QoS-Aware Token Scheduling and Private Data Valuation for Multi-Modal Agentic Networks

Arxiv

0+阅读 · 6月16日

FinAcumen: Financial Multimodal Reasoning via Self-Evolving Experience Memory Harness

Arxiv

0+阅读 · 6月16日

Disentangling Perception and Reasoning in Multimodal LLMs via Reward Design

Arxiv

0+阅读 · 6月15日

Rethinking Multimodal Fusion for Time Series: Text Modalities Need Constrained Fusion

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

1+阅读 · 6月15日

When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents

Arxiv

0+阅读 · 6月16日

Pareto LoRA: Mitigating Modality Imbalance in Unified Multimodal Models via Pareto-Optimal Gradient Integration

Arxiv

0+阅读 · 6月15日

参考链接

微信扫码咨询专知VIP会员