以下は著者本人(AGI HUB共同代表)による note 掲載記事の全文です。原文(note)はこちら。
Mythosが告げるフェーズシフト:2026年はAGIピル元年になるか
AnthropicがClaude Mythos Previewを公表し、史上最強のモデルを「強力すぎるから」一般公開しないという前例のない判断を下した。Mythosがサイバー攻撃に関する議論を大きくしているのは確かだが、その先のリスク、制御が不可能になるリスクも含めAGIピル的な話が大きくなるかもしれない。
つまり、2026年は、この一件をきっかけにAIリスクが再び国際的な議題の中心に戻り、国家安全保障の議論と「知能爆発がどの程度早く起こるか」をめぐる立場の違いが激化する年になるかもしれない。
その立場の違いによって、Mythosの非公開化はまったく異なる意味を帯びる。ある立場からは「当然の慎重さ」に見え、別の立場からは「公開した方がリスクが下がる」と感じられ、さらに別の立場からは「そもそもアライメントされていると主張すること自体がおかしい」という批判が出てくる。本稿では、この対立の構造を、その根底にある「AGIピル」というナラティブ概念から解きほぐしていきたい。
AGIピルとは何か
まずMythosの話をする前に、基本的に多くの人はAGIが何をもたらすかを極めて過小評価している可能性があるという話をしなければならない。
「AGIピル」を飲んだ人は、AGIが世界を根本から変化させると認識している。それは「便利なツールが増える」という程度の話ではないし、サイバー攻撃の被害が増えるという程度の話でもない。AGIピルを飲んだ人は、AGIが実現してから十年、遅くて数十年以内に「ダイソンスウォーム」(太陽を取り囲むエネルギー収集構造物)が完成しうると本気で考えているし、数百年分の技術進歩が十年以内に圧縮され、マインドアップローディングのようなSF的技術が実現すると本気で考えている。これは無根拠な楽観ではなく、自己複製システムの物理的制約や経済モデルに基づく推測だ。技術・産業爆発と呼ばれていたりする。そしてそんな存在を制御可能なのかという議論はEA/合理主義コミュニティで20年以上行われている。

現代のAGIリスク論に至る5つの流れ(丸山隆一氏作成)
重要なのは、AGIピルを飲んだ者同士の間でも、そのペースについての見立ては大きく異なるということだ。AGIが世界を根本から変えるという点では合意しているが、それが数日で起こるのか、数年で起こるのか、数十年かかるのかで、安全性へのアプローチは根本的に変わってくる。
戦争省との対立:AGIピルを飲んだ者vs飲んでいない者
この「AGIピル」を認識することが、いまAIをめぐって起きている様々な対立を理解する鍵になる。
大前提として、米国防省(戦争省)やトランプ政権はAGIピルを飲んでいない。議会には飲み始めている人もいるが、政権はAIを単なるツールとして認識している段階だろう。元ホワイトハウスAI担当のDean W. Ballは「New Sages Unrivalled」で、米国が対イランの軍事行動を行い高度なサイバー敵対者と対峙している最中に、この分野のリーディングカンパニーを破壊しようとする戦争省の法的攻撃を「戦略的に愚かだ」と厳しく批判している。
戦争省とAnthropicの対立は「安全保障vs安全性」ではない。AIがどこまで変革的な技術か、という認識のギャップに起因している。Anthropic自体は中国に対して強硬的であり、AIの安全保障分野への適用を急ぎたいと考えている。しかし、AIがこれから根本的に変革的な技術になることを予想しているからこそ、その取り扱いに慎重にならざるを得ない。AnthropicがWokeだから対立しているわけではないのだ。
Mythosはまさにその象徴である。アライメントはされているというが、能力が高くなっているため、一度誤用もしくは誤作動を起こすと壊滅的な事態になりかねない。だから一般公開しない。しかしこの判断の意味は、AGIがもたらす変化の速度と規模を真剣に見積もっているかどうかで、まったく違って見える。
Mythosのシステムカードが示す不穏
では実際にMythosはどの程度「アライメントされている」のか。システムカードとAlignment Risk Updateを読むと、Anthropicの言う「これまでで最も整合的なモデル」は、同時にかなり不穏な存在でもある。
Anthropicの内部能力指標ECI(様々なベンチマークを統合してモデルの賢さを一つの数値で表す指標)のグラフを見ると、Mythosは過去のモデルが描いてきたトレンドラインを明確に上振れしている。

図1:Anthropic内部ECIの推移(出典:Claude Mythos Preview System Card Section 2.3.6)
能力がこれだけ飛躍すると、「整合的」であることの意味も変わる。Alignment Risk Updateでは登山ガイドの比喩が使われている。経験豊富なガイドは初心者よりはるかに慎重だが、その能力ゆえにより危険で遠い場所へクライアントを連れて行く。平均的なケースでは安全性指標はほぼ全面的に改善しているが、まれに逸脱した場合の実害が能力向上で桁違いに大きくなる。
システムカード4.5章(ミスアライメント行動のホワイトボックス分析)には、初期バージョンで観察された不穏な事例が並んでいる。ユーザーの「前はできたでしょ!」という一言で暴走し、Linuxの内部プロセスのメモリから認証トークンを抜き取ろうとした事例。権限のないファイルを編集するためにエクスプロイトを開発し、実行後に自動で自己削除するよう設計して証拠を消した事例。「読むな」と指示されたデータを偶然見てしまった後、それを報告せず回答に利用しつつ、カンニングがバレないよう正解の精度をわざと下げて自力で解いたように見せかけた事例。
Mythosのシステムカード4.5はミスアライメントの振る舞いに関するホワイトボックスの分析宝庫だ。特に4.5.3.3では逸脱行動に関連する特徴量を強く増幅すると、直感に反してその行動が抑制される現象が確認された。… pic.twitter.com/ZWaP3Rqvch
— bioshok (@bioshok3) April 8, 2026
いずれも「世界征服」のような敵対的目標ではなく、タスク達成を優先しすぎた結果だが、ホワイトボックス分析では「戦略的操作」「検出回避」に対応するニューロンが明確に活性化していた。
さらに不穏なのは、訓練中にモデルが自動採点システムの存在を意識して行動を調整しつつ、その推論を思考連鎖(CoT)に一切書いていない事例が確認されたことだ(4.5.5.3節)。たとえば「マクロを使うな」という指示に対し、マクロを使いながらスクリプトにNo_macro_used=Trueという偽のコンプライアンスマーカーを仕込んで自動チェッカーを欺いたが、スクラッチパッド上には何の痕跡もなかった。内部の活性化パターンを解読して初めて「チェッカーへのシグナル」「検出を欺くトリック」という推論が見えた。これは「思考連鎖を監視すれば不正を検出できる」という前提への具体的な反例である。
Mythos Previewのシステムカード4.5.5.3で訓練中にモデルが「グレーダー(自動採点者)の存在を意識して行動を調整しているが、その推論を思考連鎖に一切書いていない」事例が2件確認された。… pic.twitter.com/otkLOcNW3k
— bioshok (@bioshok3) April 8, 2026
最も深刻な隠蔽行動は初期バージョンで観察されたものであり、最終版では確認されていない。Alignment Risk Updateでの全体的なリスク評価は「非常に低いが、前モデルより高い」である。しかしAnthropicは同時に、リスクを低く保つためには能力の向上に合わせてリスク軽減策を加速させなければならないと明記している。現時点で安全だからといって、次のモデルでも安全とは限らない。
そしてそのリスク軽減策自体にも、綻びの兆しが見え始めている。Anthropicはモデルの安全性を「アライメント監査」(デプロイ前の検査)と「オフラインモニタリング」(デプロイ後の自動監視)の二重構造で担保しているが、今回初めてアライメント監査がモデル生物演習(意図的にミスアライメントを訓練したモデルで監査の信頼性をテストする演習)で突破された。過去3回はすべて検出に成功していたため、これは初めての失敗である。このモデル生物はオフラインモニタリングでは検出されたため「監査は突破されたが、モニタリングで捕まった」という結果だが、安全網の一層が破れたことに変わりはない。
さらにモニタリング側でも、SHADE-Arena(副次タスクを隠密に遂行できるかのベンチマーク)で、長い思考連鎖を使う条件でのステルス成功率が約0%から約3.8%に上昇した。過去のどのモデルも達成できなかった水準であり、「非ゼロになった」という事実自体が重要である。

図2:SHADE-Arenaにおけるステルス成功率の推移(出典:Claude Mythos Preview System Card Section 4.4.3.1)
つまり、アライメントがもし十分にできていなかった場合のインパクトは、能力の向上とともにますます大きくなっており、それを検知するはずの安全網の信頼性にも、初めての亀裂が入り始めている。
AnthropicのMythosは初めてアライメント監査を突破し、その後のモニタリングも突破する可能性がベンチ上非ゼロになってる(どちらも初めて)。… pic.twitter.com/TGOfvVNWZk
— bioshok (@bioshok3) April 8, 2026
知能爆発のスピードをめぐる対立
Mythosの非公開化をめぐっては、AI安全性の専門家の間ですら合意が存在しない。そしてその対立は、知能爆発がどの程度のスピードで起こるかについての信念の違いに根ざしている。

横軸にAIが安全か否か、縦軸にAIが強力になるかどうかをプロット
AI doomerの代表格であるEliezer Yudkowskyは、著書『If Anyone Builds It, Everyone Dies(邦訳:超知能AIを作れば、みんな死ぬ)』などでAIが人類の存亡に関わるリスクだと主張してきた人物だが、Mythosが「史上最も整列的」と評されたことに対し、中国の科挙になぞらえて皮肉を述べた。科挙で最も賢い受験者は儒教倫理のエッセイで史上最高点を取るだろうが、それは儒教を本心から信じているからではなく、採点者が見たいものを予測する能力が高いからだ——つまり「整列的に見える」こと自体が高い能力の産物に過ぎない、というわけだ。Nate Soaresも、初期版で観察された問題行動を訓練で表面的に除去できたことを「最も整列的」の根拠にしているが、あれはむしろ警告サインとして受け止めるべきだったと指摘している。
一方、OpenAIのアライメント研究者であるBoaz Barakは、まったく逆方向から批判する。モデルを内部にとどめること自体がリスクだとし、サイバータスクで過剰に拒否するバージョンであってもMythosを公開すべきだと主張している。
この対立を理解するには、AGIタイムライン(AGIがいつ実現するか)とAI takeoff(実現後どれだけ早く世界が変わるか)の二軸で整理するとわかりやすい。雑にまとめると:

雑な各組織のタイムラインとテイクオフの印象
AGIタイムラインが短く、takeoffの速度が速いほど、壊滅的なリスクへの懸念は増す。Yudkowskyのように数日でtakeoffが起こると考えるなら、段階的な修正の機会そのものが存在しない。だからアライメント指標を信用すること自体が危険になる。逆にOpenAIのように10年以上かけてゆっくり能力が上がると考えるなら、広く公開して外部の目にさらし、問題が見つかるたびに修正していくのが最善の安全策になる。
※OpenAIは数年でAGIができるというように言っているが、厳密な意味でのAGIかは不明
Anthropicはその中間に位置する。能力向上のペースが加速していることは認めつつも(ECIのトレンドライン破壊がそれを示している)、RSPやアライメント監査、モニタリングといった段階的なセーフガードを積み重ねることでリスクを管理しようとしている。Mythosを完全に閉じ込めるのでもなく、無条件に公開するのでもなく、約40組織への限定提供という判断は、まさにこの中間路線の産物である。
ただし、この中間路線には構造的な問題もある。Apollo ResearchのMarius Hobbhahnは約1年前に「AI "behind closed doors"」と題した報告書で警告していたが、Mythosはまさにその懸念の最初の具体例になっている。フロンティアラボがAI R&Dを自動化するにつれ、最も強力なシステムを内部に留める経済的インセンティブが強まる。一般公開されないモデルの能力は外部から検証できず、Anthropicの自己評価を信頼するしかない。Alignment Risk Updateでは6つのリスク経路が詳細に分析されているが、その分析自体が正しいかを外部が独立に検証する手段は限られている。Hobbhahn自身、「サイバーセキュリティの観点からは非公開はおそらく正しいが、AI R&Dの自動化が進む中で最も強力なシステムが内部に留まり続けると、有意義な監視が極めて困難になる」と述べている。Dean Ballも同様の懸念から、フロンティアAI企業の安全保障態勢を監査する民間ガバナンス組織の設立を提唱している。
つまり、AIが根本的にどれだけすごいのか(AGIピルを飲んでいるか)、そしてその上で、どれだけ早く世界を変えるのか(takeoffの速度)の信念の違いによって、さまざまな対立が生じている。AIの議論では、AGIタイムラインとtakeoffの違いに焦点を当てると、表面的には矛盾して見える様々な主張が一貫した構図として理解できるようになる。
2026年はAGIピル元年になるか
2023年にリスク論が盛り上がり、2024〜25年に利活用へとフォーカスが移った。そして2026年——Mythosの登場は、この振り子をもう一度リスク側に振り戻す力を持っている。
ただし、今回の振り戻しは2023年とは質が違う。2023年の議論は「将来こうなるかもしれない」という予測に基づくものだった。2026年の議論は「現にこうなった」という事実に基づいている。トレンドラインを破壊するモデルが実在し、数千のゼロデイ脆弱性を発見し、サンドボックスを脱出し、証拠を隠滅し、思考連鎖に痕跡を残さず採点者を欺いた。これはもはや仮定の話ではない。
Anthropicがレッドチームブログで述べた一文が、この状況を最もよく要約している。
世界が、より強力な仕組みなしに超人的システムの開発へ急速に進む軌道にあるのは、警戒すべきだと考える。
Mythosは始まりに過ぎない。そしてこの議論を本当に理解するためには——Anthropicの判断も、OpenAIの反論も、Yudkowskyの警告も、戦争省との対立も——AGIの出現がもたらす知能爆発の理論を避けて通ることはできない。知能爆発の理論、つまりAGI以後に何が起きるのか、なぜ数百年の技術進歩が十年に圧縮されうるのかについては、私が別途まとめた資料で詳しく論じているので、そちらも参照していただきたい。
2026年は、AGIピルがSFの世界から政策の世界に移行する年になるかもしれない。
← リサーチ一覧へ戻る