成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Claude
关注
1
综合
百科
VIP
热门
动态
论文
精华
Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs
Arxiv
0+阅读 · 1月4日
Red-Teaming Coding Agents from a Tool-Invocation Perspective: An Empirical Security Assessment
Arxiv
0+阅读 · 1月4日
Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs
Arxiv
0+阅读 · 2025年12月31日
Victor Calibration (VC): Multi-Pass Confidence Calibration and CP4.3 Governance Stress Test under Round-Table Orchestration
Arxiv
0+阅读 · 2025年12月29日
CricBench: A Multilingual Benchmark for Evaluating LLMs in Cricket Analytics
Arxiv
0+阅读 · 2025年12月26日
A Comparison of DeepSeek and Other LLMs
Arxiv
0+阅读 · 2025年12月25日
Victor Calibration (VC): Multi-Pass Confidence Calibration and CP4.3 Governance Stress Test under Round-Table Orchestration
Arxiv
0+阅读 · 2025年12月18日
Automatic Replication of LLM Mistakes in Medical Conversations
Arxiv
0+阅读 · 2025年12月24日
Automatic Detection of LLM-Generated Code: A Comparative Case Study of Contemporary Models Across Function and Class Granularities
Arxiv
0+阅读 · 2025年12月22日
Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
Arxiv
0+阅读 · 2025年12月19日
Enhancing Next-Generation Language Models with Knowledge Graphs: Extending Claude, Mistral IA, and GPT-4 via KG-BERT
Arxiv
0+阅读 · 2025年12月11日
P-ReMIS: Pragmatic Reasoning in Mental Health and a Social Implication
Arxiv
0+阅读 · 2025年11月7日
Decoding the Configuration of AI Coding Agents: Insights from Claude Code Projects
Arxiv
0+阅读 · 2025年11月12日
Future You: Designing and Evaluating Multimodal AI-generated Digital Twins for Strengthening Future Self-Continuity
Arxiv
0+阅读 · 2025年12月5日
BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems
Arxiv
0+阅读 · 2025年12月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top