Large Language Models (LLMs) trained on massive code corpora are now increasingly capable of generating code that is hard to distinguish from human-written code. This raises practical concerns, including security vulnerabilities and licensing ambiguity, and also motivates a forensic question: 'Who (or which LLM) wrote this piece of code?' We present GoCoMA, a multimodal framework that models an extrinsic hierarchy between (i) code stylometry, capturing higher-level structural and stylistic signatures, and (ii) image representations of binary pre-executable artifacts (BPEA), capturing lower-level, execution-oriented byte semantics shaped by compilation and toolchains. GoCoMA projects modality embeddings into a hyperbolic Poincaré ball, fuses them via a geodesic-cosine similarity-based cross-modal attention (GCSA) fusion mechanism, and back-projects the fused representation to Euclidean space for final LLM-source attribution. Experiments on two open-source benchmarks (CoDET-M4 and LLMAuthorBench) show that GoCoMA consistently outperforms unimodal and Euclidean multimodal baselines under identical evaluation protocols.


翻译:大型语言模型(LLM)经过海量代码语料训练后,所生成的代码越来越难以与人工编写的代码区分。这引发了实际层面的担忧,包括安全漏洞和许可模糊性问题,也催生了一个取证问题:“这段代码是谁(或哪个大语言模型)写的?”我们提出GoCoMA——一个多模态框架,该框架对(i)代码文体学(捕捉高层结构与风格特征)和(ii)二进制预执行工件(BPEA)的图像表示(捕捉由编译和工具链塑造的低层面向执行的字节语义)之间的外在层级进行了建模。GoCoMA将模态嵌入投影到双曲庞加莱球体中,通过基于测地余弦相似度的跨模态注意力(GCSA)融合机制对其进行融合,并将融合后的表示反向投影回欧几里得空间,以实现最终的LLM来源归属。在两个开源基准测试(CoDET-M4和LLMAuthorBench)上的实验表明,在相同的评估协议下,GoCoMA始终优于单模态和欧几里得多模态基线方法。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多模态大语言模型研究进展!
专知会员服务
43+阅读 · 2024年7月15日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多模态大语言模型研究进展!
专知会员服务
43+阅读 · 2024年7月15日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
《大型语言模型代码生成》综述
专知会员服务
70+阅读 · 2024年6月4日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员