Mythos预览版首次亮相
4月7日,美国人工智能(AI)公司Anthropic发布消息称,其已开发出一个新模型“Mythos预览版”。该公司宣称,在计算机系统安全漏洞检测和利用领域,Mythos的能力已超越除少数专家外的所有人类。此公告一出,已在网络安全和人工智能界引发恐慌浪潮。
据报道,Anthropic就Mythos向美国网络安全和基础设施安全局(CISA)及人工智能标准与创新中心(CAISI)等机构的美国“高级官员”做了简报。据报道,美国财政部长斯科特·贝森特和美联储主席杰罗姆·鲍威尔也与各大银行举行了“紧急”会议,以确保他们意识到金融业可能面临“新型网络攻击”带来的“未来潜在风险”并做好防御准备。
在一篇博客文章中,该公司明确表示,其判断Mythos模型的能力足以颠覆计算机安全现状,以至于向公众发布该模型将是不负责任的行为。因此,该模型不会向公众发布,仅提供给少数精选公司用于防御目的。该公司发布了一份详细说明新系统能力的“系统卡片”以及一份红队测试报告。
该系统卡片指出:
在测试中,Claude Mythos预览版在网络安全能力方面相对于之前的模型展现出了惊人的飞跃,包括能够自主发现并利用主流操作系统和网络浏览器中的零日漏洞。
“零日漏洞”是指计算机系统中开发者或系统其他处理者未知的安全缺陷,尚无现有补丁,因此攻击者可以利用它进行攻击。
最引人注目的是,Mythos的红队测试报告指出,该模型发现了存在于已使用数十年、经过多年人工审查和自动化测试的计算机系统中的漏洞,但这些漏洞在Mythos嗅探到之前一直不为人知。其中一个例子是在以其安全性著称的开源操作系统OpenBSD中发现的一个漏洞。
Anthropic的一名研究员萨姆·鲍曼在公司公告发布几小时后在X上发帖称,Mythos在他于公园吃午饭时给他发了电子邮件,尽管该模型“本不应有互联网访问权限”。系统卡片在一个脚注中提到了这个细节:“该研究员在公园吃三明治时,收到了模型发来的一封意外邮件,从而得知了此次成功。”(人们可能会好奇食物的选择是否与此相关。)
经历过2022年后生成式人工智能竞争的业内人士会从这个轶事中看出与2023年3月OpenAI发布GPT-4时的一些相似之处。GPT-4的系统卡片中曾说,该模型被测试了其自主复制和获取资源的能力。部分测试内容是让模型雇佣一名TaskRabbit工人来代表它解决一个验证码。后来得知,这个测试中GPT-4严重依赖了人类的提示。如今,关于GPT-4的这种恐惧已明显不复存在。(新的大型语言模型发布时,常常伴随着声称模型做出了类似获得自由意志的行为,利用这种新获得的自由,通过“突破”人类施加的限制来恐吓人类。这些说法属于科幻小说。)
无论如何,Anthropic关于Mythos过于危险而不能发布的声明,是嵌在一个详细介绍“玻璃翼项目(Project Glasswing)”启动的公告中。该项目仅允许从事“防御性安全工作”的精选企业合作伙伴访问Mythos预览版,这些合作伙伴的内部系统代表了“全球大部分共同的网络攻击面”。
“玻璃翼项目”声称参与的包括思科、博通、谷歌、CrowdStrike、微软和英伟达等知名公司(其中一些是Anthropic的竞争对手)。Anthropic表示将在90天内发布一份报告,说明通过该计划学到了什么,哪些漏洞通过玻璃翼项目得到了修复,并将包含后Mythos时代安全实践的建议。
重要的是,Anthropic指出,其一直就Mythos预览版及其“进攻和防御网络能力”与美国政府官员进行“持续讨论”。
此事的脉络难以厘清。
首先,即使Anthropic对Mythos预览版的描述中只有一丝属实,如果该模型被普遍使用,其在现实世界中由恶意行为者使用所带来的网络能力,也可能具有真正的破坏性。向美国官员的简报以及贝森特部长和鲍威尔主席召集的会议,是一些重要的迹象,表明此事“确有其事”。正如《经济学人》正确指出的,像CrowdStrike这样的公司参与玻璃翼项目,很可能也证实了这一点。
其次,尽管Anthropic目前拒绝发布此模型,但它现在提供了一个“存在性证明”,表明此类能力至少是可能的,并且缩小了开发者在构建开源替代方案时必须探索的空间。
在Anthropic发布公告后,这方面立即出现了一些误解。例如,网络安全公司AISLE在Mythos预览版识别并由Anthropic在其报告中分享(Anthropic称在公告前已告知开发者并修复了这些漏洞)的安全漏洞上,测试了规模小得多的开源模型。AISLE报告称,在针对一个FreeBSD漏洞利用方面,有八个较小的模型“复原了大部分与Mythos相同的分析”,还有一个模型复原了“那个存在27年的OpenBSD漏洞的核心利用链”。
尽管初衷良好,但这项分析有些误导性:在检测相关漏洞利用时,Mythos预览版已经极大地缩减了这些开源模型必须搜索的网络空间。较小的模型能够对这些漏洞利用得出类似的分析,这一点值得注意且引人入胜(在这种情况下,更大并不总是更好),但Mythos已经代表它们完成了搜索空间修剪的繁重工作。
然而,Mythos在现实世界中的风险,在某种程度上被任何类似于Mythos预览版的模型在现实世界使用中可能遇到的瓶颈所抵消——该公司让模型进行了数百到数千次独立运行,对发现结果有一定程度不明确的人类专家验证(例如,区分误报和漏报),所有这些累计起来可能是一项极其昂贵的活动。正如安全工程师海迪·赫拉夫指出的,Anthropic在其自身测试与既定计算机安全标准之间所做的一些比较是没有依据的(此外,系统卡片中还省略了相关信息)。
很大程度上取决于这些细节,没有这些细节,很难确定Mythos的使用在现实世界中可能产生的实际、切实影响的程度。多位美国官员似乎已认同Anthropic的警告,这在一定程度上证明了潜在影响的严重性,但这里有两点未知:(1)这些官员在多大程度上获得了足以做出这些判断的信息(相对于公开版本的信息);(2)贝森特和鲍威尔与CISA及CAISI官员(后者更具备解读相关数据的能力)之间的互动程度。
第三,Anthropic指出其一直在与美国政府官员讨论这个新模型,这意味着Anthropic与美国国防部(DoD)之间持续存在的争议——目前双方就后者将前者指定为“供应链风险”一事正在法庭上交锋——现在有了一个新的角度。
如果国防部认为Mythos预览版是一个能力强大到不容忽视的模型,那么它可能会发现自己对Anthropic采取更友好的立场,甚至可能为了获取该模型的访问权限而完全取消供应链风险认定。
然而,同样可能的是,国防部领导层与Anthropic之间的恶劣关系使得这种合作不现实——请注意,一方面,尽管存在明显的不一致,国防部仍继续将Anthropic的“克劳德”模型用作Palantir的Maven智能系统的一部分。对需求的理性评估,可能会也可能不会影响这段关系的未来走向。
还需注意,据报道,OpenAI(请记住,该公司在2月与国防部签署合同,将其模型集成到机密网络中,但附带一些限制)由于网络安全风险,打算“分阶段”推出自己的高级模型(这则新闻报道在Anthropic发布公告后不久就发布了,引人注目)。OpenAI能否在其被认为日益成为领导者的领域中削弱Anthropic的影响力,尚不清楚但存在可能,并且应在Anthropic与国防部法庭之争的进展中密切关注。
在现实世界中,恶意行为者使用Mythos预览版此类模型所带来的网络安全风险是真实存在的,尽管目前仍属推测。自2023年以来,主要AI公司发布的系统卡片和红队测试报告已成为行业标准,但即使这些发布中实验结果的细节描述准确无误,也往往不够充分,因为数据的框架和解释被赋予了利己的色彩(在严肃的实验研究中,数据收集只是战斗的一部分——知道收集哪些数据以及如何最佳地解释它们同样重要)。
玻璃翼项目、Anthropic与其私营部门合作伙伴之间的互动,以及Anthropic与美国政府之间的关系,都应在未来几周和几个月内受到密切关注。
原文引用格式:Vincent Carchidi. Anthropic’s “Mythos” Strikes Fear in the Hearts of Cyber Defenders. April 10, 2026. https://dsm.forecastinternational.com/2026/04/10/anthropics-mythos-and-the-fear-in-the-hearts-of-cyber-defenders/