Anthropic 重磅報告呼籲建立全球可驗證暫停機制
分類: AI 新品報導 發布時間:
Anthropic 於 2026 年 6 月 5 日透過 Anthropic Institute 發布長篇報告《When AI Builds Itself》(當 AI 自主建構自身),詳細剖析公司內部數據與外部基準,顯示 AI 已在大幅加速自身開發流程,並明確指出「遞迴自我改進」(Recursive Self-Improvement,簡稱 RSI)——即 AI 完全自主設計並開發後繼版本——已非遙遠科幻,而是可能在數年內成為現實的關鍵轉折點。
這份由共同創辦人 Jack Clark 與 Anthropic Institute 負責人 Marina Favaro 共同撰寫的報告,被視為 Anthropic 迄今對 AI 發展路徑最透明、深入的公開分析。
AI 開發循環正從人類主導轉向 AI 參與
報告開頭指出,AI 歷史上大多由人類主導開發循環的每一步,但在 Anthropic,愈來愈多工作正委託給 AI 系統自身執行,從而大幅加速進展。若這一趨勢持續,並配合充足運算資源,將指向 AI 能完全自主設計並開發自身後繼版本的階段,即「遞迴自我改進」。

Anthropic 強調:「我們尚未達到這個階段,且 RSI 並非必然發生,但它可能比大多數機構預期來得更快。」
外部基準顯示 AI 能力加速提升
報告引用多項公開基準證明 AI 能力正快速進化:
- METR 長期任務基準顯示,AI 可以可靠完成的任務長度正加速延長,從過去每 7 個月翻倍,加速至每 4 個月翻倍。
- 2024 年 3 月 Claude Opus 3 可完成人類約 4 分鐘的軟體任務;一年後 Claude Sonnet 3.7 可處理約 1.5 小時任務;再一年後 Claude Opus 4.6 已能處理 12 小時任務。若趨勢延續,今年內 AI 可能處理需人類數天的任務,2027 年則可能處理數週任務。
- SWE-bench(真實軟體工程基準)從低個位數分數,兩年內接近飽和。
- CORE-Bench(研究論文重現基準)從 2024 年約 20% 成功率,15 個月內達到飽和。
- Claude Mythos Preview 已能持續工作至少 16 小時,接近 METR 目前可測量上限。

內部數據:Anthropic 工程與研究已深度依賴 Claude
報告詳細揭露 Anthropic 內部未曾公開的具體數據:
工程層面:

- 截至 2026 年 5 月,合併至正式程式碼庫的程式碼中,超過 80% 由 Claude 撰寫(2025 年 2 月 Claude Code 推出前僅個位數)。
- 工程師每日合併程式碼量在 2025 年開始上升,2026 年第二季已達 2024 年的 8 倍。
- Claude 可處理開放式、不明確規格的複雜任務,成功率在 2026 年 5 月達 76%(六個月內提升 50 個百分點)。
- 範例:工程師僅提供簡短描述與叢集存取權,Claude 即能在兩小時內解決原本需 2-3 天的除錯工作。
- 自動 Claude 程式碼審核工具已能攔截大量潛在錯誤,回顧分析顯示可事先攔截過去生產事故中約三分之一的 bug。
- 在固定目標的程式碼優化實驗中,Claude 從 2025 年平均 3 倍加速,提升至 2026 年 52 倍 加速(熟練人類研究人員需 4-8 小時才能達到 4 倍)。
- 員工調查顯示,使用 Claude 後,中位數受訪者估計自身產出提升約 4 倍。
- Claude 還協助完成原本不會進行的工作,如在 2026 年 4 月修復 800 多個問題,將某類 API 錯誤率降低千倍。

Anthropic 提出三種可能發展路徑:
- 能力停滯:AI 發展遇瓶頸,進展放緩。此情境給予社會最多適應時間,但公司認為可能性較低。
- 效率持續提升:人類仍主導研究方向,但 AI 大幅加速執行,生產力大幅躍升。100 人公司可能做到過去 10,000 人規模的工作,但也可能被用於有害目的。
- 完全 RSI:AI 自主建構後繼版本,人類角色轉為監督與驗證,進展速度由運算資源決定。此情境下,對齊(alignment)問題將極度關鍵,可能帶來科學與醫療巨大益處,但也大幅提高人類失去控制的風險。
Anthropic 重申,若能建立具可驗證性的全球協調機制,公司願意跟進放緩或暫停前沿模型開發,以讓社會結構與對齊研究跟上技術步伐。但單方面放緩可能讓不謹慎的競爭者超前,反而增加風險。
報告強調,需建立類似冷戰時期核武管制的可驗證監督系統,才能讓暫停機制真正有效。接下來數月,Anthropic 將組織政策制定者、研究人員與其他 AI 公司共同討論,建立更完善的協調架構。
這份報告清楚顯示 AI 研發正從「人類主導」快速轉向「人機共創」,甚至可能邁向「AI 主導」階段。Anthropic 透過透明公開內部數據,既展現技術加速,也提醒全球必須認真面對 RSI 帶來的巨大機會與風險。
後續發展,包括國際協調能否實現、對齊技術能否跟上,以及 RSI 真正實現的時間點,都將深刻影響全球科技、經濟與社會結構,值得各界持續高度關注。


