世界最危險的 AI 模型,第一次出包的原因是外包廠商沒換密碼人機共構

資訊安全公司治理AIAnthropic

2026 年 4 月 7 日,Anthropic 宣布 Claude Mythos Preview,定位是企業級資安 AI,能自動發現零日漏洞、串接多步驟攻擊鏈,威力強到 Anthropic 自己說不適合公開發布,僅透過 Project Glasswing 計畫,開放給 Amazon、Apple、JP Morgan 等少數機構測試。

宣布當天,一個專門追蹤未發布 AI 模型的 Discord 私群,就已經登入 Mythos 了。


攻擊鏈只有三步

第一步:這個 Discord 群長期用爬蟲和 OSINT 工具掃描公開來源,累積了對 Anthropic 內部 endpoint URL 命名慣例的認識。Mythos 宣布當天,他們根據這個命名規則猜出 endpoint 位置。

第二步:群內有一名成員,白天的正職是 Anthropic 某外包承包商的員工。他的公司維護了一組 shared credential——沒有綁定個人身份,也沒有定期輪換。他把這組帳號直接丟進 Discord 群。

第三步:登入。

沒有 SQL injection,沒有 prompt injection,沒有任何技術漏洞被利用。整個過程用的是公開資訊加上一組合法憑證。嚴格來說,這不是一個可以發 CVE 的資安事件,系統運作完全正常。


用了兩週,帳單是別人的

從 4 月 7 日到 4 月 21 日,這群人持續使用 Mythos,做的是一般推理和程式碼任務。費用落在那個外包承包商的帳號上。Shared credential 沒有個人綁定,用量混在正常使用裡,兩週沒有人注意到異常。

直到群內某個成員主動帶著截圖和 live demo 找上彭博,這件事才曝光。


媒體怎麼報這件事,以及哪裡不公正

Bloomberg 的原始報導框架是:「世界最危險的 AI 模型被未授權用戶存取」。這個標題在技術上沒有說錯,但它製造了一個誤導性的因果關係——彷彿 Mythos 的能力本身就是這次事件的核心風險。

問題在於,攻擊者進入系統的方式和 Mythos 的能力完全無關。沒有人用 Mythos 來輔助這次入侵,也沒有人在裡面進行任何網路攻擊。Bloomberg 拿到的 live demo 是建網站。入侵手法是 2000 年代就存在的 OSINT 加 credential abuse,放在任何一個 shared credential 管理不善的系統上都會成立,換成一個普通的 SaaS 工具,結果一樣。

多數跟進報導沿用了這個框架,把廠商存取控制的執行失誤,放大成了「AI 存在風險」的敘事證據。兩件事不是同一件事。

真正值得追問的問題反而被略過了:Anthropic 在引入外包廠商時,有沒有要求基本的存取控制規範?那個承包商的 shared credential 存在多久了?Anthropic 自己的廠商審計流程在哪裡?這些問題的答案,才決定這件事的嚴重程度——而不是 Mythos 能不能找零日。


這是公司治理問題

Anthropic 的聲明說沒有證據顯示事件影響核心系統,技術上是事實。但這也正是問題所在:Mythos 的直接安全邊界守住了,外圍的廠商管理沒有。

要修的清單沒有一項是技術難題:個人帳號強制綁定、定期輪換憑證、用量監控設告警閾值。每一項都是執行問題,也是任何有外包協作的組織早就應該有的基本流程。

真正把廠商管理做到位的組織,你不會在網路上找到他們的規範文件。因為那些規範是內部執行的紀律,不是對外展示的文件。能公開的那份,往往只是門面。

一個能自主發現零日漏洞的 AI 模型,第一次出包的原因是外包廠商沒換密碼。這件事的教訓和 AI 無關,和組織紀律有關。