多媒体论文 - 专知

会员服务 ·

多媒体

FISHER: A Foundation Model for Multi-Modal Industrial Signal Comprehensive Representation

Arxiv

0+阅读 · 6月23日

Composition: Building Community with Arts, Math, and Code (Experience Report)

Arxiv

0+阅读 · 6月22日

HAFM: Hierarchical Autoregressive Foundation Model for Music Accompaniment Generation

Arxiv

0+阅读 · 6月23日

Mind the Heads: Topological Representation Alignment for Multimodal LLMs

Arxiv

0+阅读 · 6月22日

Multimedia and Visual Analytics in the Agentic Era

Arxiv

0+阅读 · 6月23日

PaaF: Raising the perceived quality of INR-Based Image Compression

Arxiv

0+阅读 · 6月19日

Design-MLLM: A Reinforcement Alignment Framework for Verifiable and Aesthetic Interior Design

Arxiv

0+阅读 · 6月21日

Line Drawings using LightBenders: Authoring and Illuminating

Arxiv

0+阅读 · 6月21日

HAFM: Hierarchical Autoregressive Foundation Model for Music Accompaniment Generation

Arxiv

0+阅读 · 6月19日

OlfactProfile: Profile-Conditioned Odor Prediction from Audiovisual Content

Arxiv

0+阅读 · 6月16日

Training-Free Semantic Correction for Autoregressive Visual Models

Arxiv

0+阅读 · 6月21日

DiffPC: Diffusion-Based Projector Photometric Compensation

Arxiv

0+阅读 · 6月16日

HaineiFRDM: Structure-Preserving Diffusion for Film Restoration under Fast Motion and Diverse Defects

Arxiv

0+阅读 · 6月21日

Prismriver: Formalization of Music Theory and Algorithmic Composition in Lean 4

Arxiv

0+阅读 · 6月18日

MarkIt: Training-Free Visual Markers for Precise Video Temporal Grounding

Arxiv

0+阅读 · 6月16日

参考链接

微信扫码咨询专知VIP会员