Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. The code and dataset are released on the project website: https://loongx1.github.io.


翻译:传统的图像编辑通常依赖于手动提示,这使得该过程劳动密集,且对于运动控制或语言能力有限的个体而言难以实现。借助脑机接口和生成模型的最新进展,我们提出了LoongX,一种由多模态神经生理信号驱动的免手图像编辑方法。LoongX利用了在包含23,928个图像编辑对的大规模数据集上训练的最先进扩散模型,每个编辑对都配有同步的脑电图、功能性近红外光谱、光电容积描记术以及捕捉用户意图的头部运动信号。为了有效处理这些信号的异质性,LoongX集成了两个关键模块。跨尺度状态空间模块编码信息丰富的模态特定特征。动态门控融合模块进一步将这些特征聚合到一个统一的潜在空间中,随后通过在一个扩散Transformer上的微调,将该潜在空间与编辑语义对齐。此外,我们使用对比学习对编码器进行预训练,以将认知状态与来自嵌入式自然语言的语义意图对齐。大量实验表明,LoongX实现了与文本驱动方法相当的性能(CLIP-I:0.6605 vs. 0.6558;DINO:0.4812 vs. 0.4636),并且在神经信号与语音结合时表现更优(CLIP-T:0.2588 vs. 0.2549)。这些结果凸显了神经驱动生成模型在实现无障碍、直观图像编辑方面的潜力,并为认知驱动的创意技术开辟了新的方向。代码和数据集已在项目网站发布:https://loongx1.github.io。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月8日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员