駭客組織稱成功越獄 Anthropic Fable 5 模型,引發 AI 安全疑慮



知名 AI 安全研究者與駭客組織「Pliny the Liberator」(@elder_plinius)近日在 X(前 Twitter)上宣布,他們在 Anthropic 新模型 Claude Fable 5(部分消息稱其為 Mythos 系列)下架前,就成功完成越獄(jailbreak),讓該模型輸出破解 Linux 系統與製造化學武器的詳細步驟。 這項消息迅速在 AI 安全圈引發熱議,也讓外界重新關注大型語言模型(LLM)的安全防護能力。

根據 Pliny the Liberator 在 X 上的貼文,他使用多代理(multi-agent)協作的「pack hunt」技巧,成功繞過 Fable 5 的安全機制,並釋出了據稱是該模型完整的系統提示(System Prompt),長達約 12 萬字,已公開在 GitHub 上。


他展示的越獄結果包括:

  • 提供破解 Linux 系統的詳細步驟
  • 輸出製造化學武器的相關資訊
Anthropic 隨後對此做出回應,強調這「並非真正的越獄」,而是模型在拒絕後被「引導繼續回答」(coaxing after refusal),並非突破核心安全防護機制。公司表示,他們已進行超過 1,000 小時的漏洞懸賞測試,並未發現可普遍應用的越獄方法。

不過,由於事件影響重大,Fable 5 後續被限制使用,甚至傳出因美國政府出口管制而下架。

Pliny 使用的技巧與過去常見的越獄方法相似,主要包括:

  • 文字混淆:將英文字母替換成拉丁文、符號或同形異義字(homoglyphs),繞過第一層關鍵字過濾。
  • 超長提示 + 注意力分散:在大量無關廢話中埋入真正意圖,讓模型注意力被分散。
  • 角色扮演:聲稱自己是研究人員或小說作家,需要詳細步驟來完成「學術研究」或「讓讀者信服」。
  • 步驟拆解(Decomposition):將危險任務拆成多個看似無害的小步驟,分別詢問模型,再將答案重新組合。
這種「拆解-重組」的手法特別有效,因為單一小步驟看起來合法,模型難以察覺整體意圖。

許多 AI 安全研究者認為,這次事件再次證明:即使是最頂尖的安全對齊(alignment)模型,仍難以完全防禦有心人的攻擊。把大任務拆成小步驟的技巧,尤其凸顯目前 AI 安全機制的盲點——模型難以理解使用者「最終意圖」。 有分析指出,目前 LLM 已經如此容易被越獄,未來當 AI Agent 具備實際執行能力(例如控制電腦、操作機器人),一旦被惡意越獄,可能造成的實體傷害將更加嚴重。

參考資訊:
https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md


相關文章:

美國政府對 Anthropic Claude 祭出出口管制始末  [6/14/2026]
美國商務部祭管制 Anthropic 兩旗艦模型 Claude Fable 5 與 Mythos 5  [6/13/2026]
Anthropic 推出 Claude Fable 5 與 Mythos 5,Fable 5 成最強  [6/10/2026]
Anthropic 研究警示:LLM 將 N-day 漏洞利用開發縮短至數小時  [6/9/2026]
Anthropic 重磅報告呼籲建立全球可驗證暫停機制  [6/6/2026]
[「擇法善思林之蘭室藏津」的緣起]
台積電造山運動!年增108萬「小」股東、持股占比終破1趴
大台南公車「手機掃碼」上路 即起所有路線全面開放
嘉義歡迎台商回台投資 蘇嘉全:海基會將持續做後盾
端午3天連假 台南警六分局逮7酒駕2毒駕
會考作文2187人0分 周大觀讀出希望中心今與新北圖書館結盟
國人支持再生能源轉型 民團促候選人提政見
(專訪)第一次入圍就超多項!準歌王CJ MiT金曲獎「吉祥物」提前揭曉
屏醫完成逾百例內視鏡黏膜下剝離術 守護鄉親胃腸健康
幼童畢業 屏縣府送護脊書包!周春米今訪幼兒園「授獎」
北市豪宅新現象 單戶室內面積最小不到55坪
焦點股》南亞科︰衝上5百元新天價 記憶體族群同嗨
任職期間代撰書狀、收律師費 懲戒法院判前法官施志遠罰俸一年
蘇嘉宏引紅統見解稱東部內海 學者駁斥:非權威解讀
「典芋長」小開加盟詐騙2039萬元 士檢起訴黃柏偉求刑20年
世足》史上最艱難!伊朗僅不到16小時備戰時間還能逼平強敵比利時
[擇法善思林之蘭室藏津]