成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Claude
关注
1
综合
百科
VIP
热门
动态
论文
精华
VERA-MH Concept Paper
Arxiv
0+阅读 · 2月19日
Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families
Arxiv
0+阅读 · 2月17日
Secure Coding with AI -- From Detection to Repair
Arxiv
0+阅读 · 2月17日
Can LLMs Find Bugs in Code? An Evaluation from Beginner Errors to Security Vulnerabilities in Python and C++
Arxiv
0+阅读 · 2月9日
Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish
Arxiv
0+阅读 · 2月12日
AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises
Arxiv
0+阅读 · 2月16日
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
Arxiv
0+阅读 · 2月13日
Leveraging LLMs to support co-evolution between definitions and instances of textual DSLs: A Systematic Evaluation
Arxiv
0+阅读 · 2月12日
Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance
Arxiv
0+阅读 · 2月9日
Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality
Arxiv
0+阅读 · 2月8日
Configuring Agentic AI Coding Tools: An Exploratory Study
Arxiv
0+阅读 · 2月16日
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning
Arxiv
0+阅读 · 2月5日
Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases
Arxiv
0+阅读 · 2月4日
Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models
Arxiv
0+阅读 · 2月4日
What's in a Benchmark? The Case of SWE-Bench in Automated Program Repair
Arxiv
0+阅读 · 2月4日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top