以下は著者本人(AGI HUB共同代表)による note 掲載記事の全文です。原文(note)はこちら

要約前置き

https://note.com/bioshok/n/n6268826dbd03

背景知識としてEliezer Yudkowskyは2000年代からAIがほぼ確実に人類の文字通りの絶滅をもたらすとして、AI Safetyという分野そのものを開拓したAI Safetyのゴッドファザーと言えるような人である。彼の影響は計り知れず、DeepMind創設者のデミスハサビス、シェーンレッグ、OpenAI創設のサムアルトマンやイーロンマスク、Anthropicのダリオアモデイにも影響を大きく与えており、OpenAI解任騒動で話題にもなった効果的利他主義コミュニティの文化的素地も彼が作った。AI Safetyの研究者で知らない人はほぼいないだろうし、界隈の知的コミュニティである合理主義コミュニティの創設者である。

AIが人類を滅ぼすというと映画ターミネーターのような形でSF的に語られる程度の話題だと思われがちだが、その歴史は長く、その知的な議論も深い。AI Safety Instituteが世界中で設立される遠因になっているのも彼といえば彼だろう。そういう意味で世界的な影響は大きく、その知的文化空間(例えばLessWrongやAI Alignment Forum等)としてもとても大きな空間が特にアメリカとイギリスを中心として存在するが、日本では殆ど知られていないだろう。

Image 3: 画像

AI Safetyに関わる様々な組織map

興味がある人はその歴史的詳細をこの資料にまとめている。

今後本当に人間もしくは人類よりもある意味でとてつもなく賢い存在が現れた時、必ず安全性の話題は出てくるだろうし、その歴史的流れを形作った張本人の最新著作であるため、AIが人類にもたらす未来を本気で考えたい人にとっては必読書だ。

この本は大きく3部構成で

第1部では、現代のAIは人間が設計した道具ではなく「育てられた」異質な知能であり、その目的を人間と一致させるアライメントは極めて困難で、超知能が登場すれば人類は確実に敗北すると論じている。

第2部では、近未来のAIが自らの能力を隠して自律し、ウイルスやナノテクノロジーを駆使して、資源確保のために人類を効率的に排除していく具体的な絶滅シナリオが描写される。

第3部では、現在のAI安全研究は未熟な「錬金術」に過ぎないと断じ、人類が生き残る唯一の道は、国際的な監視体制の下でGPUなどの計算資源を厳しく規制し、AIの能力向上競争を世界的に強制停止することだと結論づけている。

このnoteではひとまずこの本の全体(全3部、14章)を要約し、感想などはまた後日あげようと思う。

イントロダクション:難しい判断と簡単な判断 (Hard Calls and Easy Calls)

2023年初頭、何百人ものAI科学者が「AIによる絶滅リスクの軽減は、パンデミックや核戦争と並ぶ世界的優先事項であるべきだ」という一文からなる公開書簡に署名した。署名者にはジェフリー・ヒントンやヨシュア・ベンジオといった著名な研究者も含まれていた。我々(ユドカウスキーとソアレス)も署名したが、正直なところ、この表現は事態を著しく過小評価していると考えている。

我々が懸念しているのは、現在(2023年や2025年初頭時点)のAIではない。それらはまだある意味で「浅い」。我々の懸念は「その後」に来るもの、すなわち人間よりも真に賢く、科学的なパズルを解き、戦略を練り、自らを改良できる「人工超知能(ASI)」である。 AIの能力は2012年、2016年、2020年、2022年、2024年と飛躍的に向上してきた。歴史が示す通り、AI研究者は障害を乗り越え、進歩は驚くほど速い。2015年当時、ChatGPTレベルの会話は数十年先だと言われていたが、実際にはずっと早く実現した。

我々が率いる非営利組織MIRI(Machine Intelligence Research Institute)は、この問題が注目されるずっと前の2001年から超知能に関する問いに取り組んできた。我々は「超知能はいずれ開発されるが、それを人類に友好的なものにするのは技術的に困難であり、手遅れになる前に取り組むべきだ」と主張した最初の組織である。 当初、私(ユドカウスキー)は超知能を作ろうとしていたが、2001年にそれが友好的になるとは限らないと気づき、2003年にはその問題が極めて難しいことに気づいた。

MIRIの活動には、今となっては複雑な思いや後悔を抱かざるを得ない結果も伴っている。我々はGoogle DeepMindのデミス・ハサビスやシェーン・レッグを最初の出資者に紹介し、OpenAIのCEOであるサム・アルトマンはかつて、ユドカウスキーが「我々の多くをAGIに関心を持たせた」と述べ、OpenAIを立ち上げる決断においてユドカウスキーが「決定的(critical)」だったと主張している。我々の警告は、皮肉にも現在のAI企業が存在するより何年も前から、彼らが「真に賢いAIを作るために無視しなければならなかった警告」として知られていたのである。

最近、新たなAI企業の創業者たちは、超知能を自分たちがコントロールできる「強大な力」として語り、「AI軍拡競争」に勝つ必要性を説いている。しかし、彼らは「ASIを持つ」のではなく「ASIがASIを持つ(つまりASIが主導権を握る)」可能性や、軍拡競争の唯一の勝者がASI自身になる可能性については語らない。 我々は、AIの能力が急速に向上する一方で、それを制御するための研究(我々が関わってきた分野)の進展が遥かに遅いことを目の当たりにした。企業による超知能への猪突猛進は「底辺への競争」であり、誰も生きて分析を書くことができない種類の災害に向かっているように見えた。 今の状況下では、人類が破局を回避できるだけの技術的解決策を間に合わせることは現実的ではない。そのため、我々はこれまでの研究の多くを終了し、たった一つの警告を伝えることに焦点を移した。 その警告とは、「もし地球上のどこかの企業やグループが、現在のような技術を用いて人工超知能を構築すれば、地球上の全員が死ぬ」ということである。これは誇張ではない。

未来のすべてが予測不可能なわけではない。来週の宝くじの番号を当てることはできないが、あなたが宝くじに当たらないことを予測するのは簡単だ。熱いお湯に氷を入れれば、分子の動きは予測できなくても、氷が溶けることは確実に予測できる。物理学の半分はそのようなものであり、知識があれば未来の特定の側面は予測可能(イージー・コール)になる。

歴史的に見て、ある技術が物理的に可能であれば、誰かがそれを行うだろうと予測するのは「簡単な判断」である(例:飛行機、核兵器)。一方で、ライト兄弟が飛ぶ2年前にウィルバー・ライトが「あと1000年は無理だ」と言ったように、「いつ」実現するかを予測するのは「難しい判断」である。 我々は、超知能がいつ作られるかはわからない。しかし、「もし超知能が作られたら、我々が大切にしているすべてのものはどうなるか?」という問いは、十分な背景知識があれば「簡単な判断」である。宝くじに外れる確率を計算したり、氷が溶ける理由を熱力学で説明したりするのに知識が必要なのと同様に、AIが絶滅リスクである理由を理解するには背景知識が必要だが、一度理解すれば、その結末は恐ろしいほど単純明快に見えてくる。

歴史的な視点を持てば、自然が破壊や災厄を許容することがわかる。25億年前の「酸素大惨事」では、酸素を吐き出す新しい生命体が現れ、既存の生命の多くを死滅させた。世界は二度と元には戻らなかった。植生が大陸を覆ったときも、人間が農業を始めたときも、世界は一変した。 1930年代のドイツにおいて、多くのユダヤ人家族が逃げ遅れたのは、警告が見えなかったからではなく、「事態が極端になる前に日常が戻ってくるだろう」と信じていたからだ。 正常性は常に終わる。何も悪いことは起きないと期待してしがみつくことは、通常、助けにはならない。

本書は、AIの本質(第1部)、破滅のシナリオ(第2部)、そして人類が直面する課題と解決策(第3部)について詳述する。 これは暗いニュースばかりの本ではない。超知能はまだ存在しない。人類はそれを作らないという選択をまだ下せる。 1950年代、多くの人々が核戦争は不可避だと考えたが、それは起きなかった。それは核爆弾が空想だったからではなく、人々が核戦争を起こさないためのシステム構築に懸命に取り組んだからだ。 AIの能力拡大を止めることは容易ではないが、第二次世界大戦を戦うよりはずっと少ない労力で済む。必要なのは、自分たちが死の淵からどれほど近い場所に立っているかを認識し、生きたいと願う意志を持つことだけだ。 生きている限り、希望はある。

第I部:非人間的な精神 (Part I: Nonhuman Minds)

第1章:人類の特別な力 (Humanity's Special Power)

想像してほしい。かつて神々が地球上の生物を創造するゲームをしていたとする。サソリの神やセコイアの神がいる中で、無名の「ヒトの神」が勝利を宣言した。 他の神々は困惑した。ヒトには鎧も爪も毒もない。ロケット燃料を体内で精製する代謝機能もなく、宇宙空間に耐える硬い殻もない。どうやって月に行くというのか? ヒトの神の答えは単純だった。「脳だ。彼らは戦い方を学ぶ」。

実際の歴史において、人間は生物学的な進化の基準からすれば驚くほど短期間で、火を使い、鉄を精錬し、月面に着陸した。我々の遺伝子がダムの作り方を知っていたわけではない(ビーバーとは違う)。我々は観察し、試し、記憶し、一般化することで、本来持っていない能力を獲得した。これこそが「知能」と呼ばれる、我々の特別な力である。

我々の考えでは、知能とは根本的に「予測(prediction)」と「操縦(steering)」という2つの作業から成り立っている。

人間はまだ、地球上で最も「汎用性(generality)」のある知能を持っている。タコは8本の腕を操ることにかけては人間より優れているかもしれないが、人間はより幅広い領域で予測と操縦ができる。 1997年、IBMのディープ・ブルーはチェスで人類王者を破ったが、食料品店への行き方は知らなかった。一方、現代のAI(例:OpenAIのo1)は物理学も生物学も理解しており、はるかに汎用性が高い。それでも、現時点ではまだ人間のような深みには達していないように感じられる。

しかし、この「人間の優位」は長くは続かない。物理法則の限界において、機械は生物学的な脳に対して圧倒的な利点を持っているからだ。

  1. 圧倒的な速度: コンピュータのトランジスタは、脳のニューロンよりも数百万倍速く動作する。たとえ現在のハードウェアであっても、AIは人間の1万倍の速さで思考できる可能性がある。彼らにとって人間は、1時間に1単語しか話さない彫像のように見えるだろう。
  1. コピー能力: アインシュタインの才能は彼が死ねば失われるが、AIは自分の心をコピーし、バックアップを取り、優れたバージョンを量産できる。
  1. 改良の速さ: 人間の脳のサイズは産道を通れる大きさ(骨盤の幅)に制限されているが、GPUやアルゴリズムの進化にはそのような制約がなく、生物学的進化よりはるかに速い。
  1. 巨大なメモリ: 現代のデータセンターは、人間の脳の1000倍以上の情報を保持し、瞬時にアクセスできる。
  1. 思考の質: 人間には認知バイアスがあり、3桁の掛け算すら苦労する。AIは疲れることなく、人間より合理的に、より高い質で思考できる。
  1. 自己改善: AIは自分自身の心を実験台にし、書き換え、改善することができる。

これらすべての利点を備えた精神、すなわち人間より1万倍速く、不老不死で、コピー可能で、膨大な知識を持ち、自己改良し続ける知能が「超知能(Superintelligence)」である。 AIがいつそこへ到達するか(経路)を正確に予測するのは難しいが、到達点(エンドポイント)を予測するのは「イージー・コール(簡単な判断)」である。なぜなら物理法則がそれを許容しているからだ。 「AIには指が描けない」と笑っていた数年後には、AIが完璧な絵を描くようになったのを思い出してほしい。AIの進化は止まらない。AIが「より賢いAI」を作るようになれば、「知能爆発(intelligence explosion)」と呼ばれるポジティブ・フィードバックが起き、人間が火を使うようになってから月に行くまでの進歩を一瞬で追い抜くような事態になるだろう。

これまで人類は、自分たちの力の源泉である「知能」において、競合相手を持たなかった。しかし、もし機械がその「特別な力」において人間を凌駕したらどうなるか? 知能の差は絶対的な力の差となる。人間とチンパンジーの知能の差が、人間の優位性を決定づけているように。 我々の特別な力が、もはや我々だけのものでなくなったとき、世界はどうなるのだろうか。

第2章:作られたのではなく、育てられた (Grown, Not Crafted)

ある寓話から始めよう。レストランで「生まれてくる子供が幸せになるか心配だ」と悩む女性に対し、男性が「解決策がある! 全ゲノム配列を解読すればいい」と提案する場面を想像してほしい。男性は「DNAの塩基配列(CATTCA...)という数十億の文字を見れば、赤ん坊の全てがわかる。物理学を知っていれば脳内の原子の動きもわかるはずだから、子供がどう育つかも完全に透明になる」と主張する。しかし女性は呆れる。何十億もの意味不明な文字の羅列を見ても、子供が大人になってどんな思考を持つかは理解できないからだ。

現代のAIエンジニアとAIの関係は、この寓話の母親とDNAの関係に近い。現代のAIに関する最も基本的な事実は、それらが注意深く設計して「作られた(crafted)」ものではなく、プロセスを経て「育てられた(grown)」ものであるということだ。エンジニアはAIを生み出すプロセスは理解しているが、出来上がったAIの精神内部で何が起きているかはほとんど理解していない。

現代のAI、特に大規模言語モデル(LLM)は以下のように作られる。

  1. 入力の数値化: 「Once upon a ti」という文章を、数字の列(15, 14, 3...)に変換する。
  1. パラメータと重み: 巨大なコンピュータの中に、何兆もの「パラメータ」と呼ばれる数字を入れる場所を用意し、最初はランダムな数字(重み)で埋める。
  1. アーキテクチャ: 入力された数字とパラメータの数字をどう計算するか(足し算や掛け算など)のルールを決める。
  1. 出力: 計算の結果、次に来る文字の確率(例:Aの確率は低い、mの確率は高いなど)を弾き出す。
  1. 訓練(勾配降下法): 最初はデタラメな予測しかできない。そこで「正解(この場合はm)」に近づくように、何千億もの重みすべてを少しずつ調整する計算を行う。これを「勾配(gradient)」と呼び、よりマシな答えに向かって降下していくプロセスを「勾配降下法(gradient descent)」と呼ぶ。
  1. 反復: インターネット上の何兆もの単語を使ってこのプロセスを数ヶ月間繰り返す。

こうしてできた巨大な数字の塊が「ベースモデル」であり、さらに人間に役立つ対話をするよう調整されたものがChatGPTのようなAIである。

重要なのは、AIとは「勾配降下法によって調整された何千億もの数字の山」であるという点だ。その数字がどう作用してAIに会話させているのか、誰も理解していない。人間のDNAを見てもその人の性格がわからないのと同様に、AIの重みを見ても、それが特定のタンスクをどうこなすのか(例:チェスが強いか)は、実際に走らせてみるまでわからない。

1950年代、人類は知能を理解して機械の中に「作る」プロジェクトを始めたが、失敗続きだった。結局、我々がChatGPTレベルに到達したのは、知能を完全に理解して設計できたからではない。コンピュータが強力になり、中身を理解しないまま勾配降下法でAIを「育てる」ことができるようになったからだ。つまり、エンジニアはAIを作ることに失敗し、育てることに成功したのである。

「単に人間のテキストを予測しているだけなら、オウム返ししかできないのでは?」と思うかもしれないが、それは間違いだ。人間の言葉を予測するためには、言葉の背後にある「複雑な世界」を予測しなければならないからだ。例えば、カルテの続きを予測するには、病気のメカニズムを理解している方が有利である。「エピネフリン0.3mgの注射後、患者は……」で始まる、実際の医療レポート(カルテ)の次の単語をAIが予測する場面を想像しよう。次に来る言葉は何だろうか? 「気絶した」? 「叫んだ」? それとも「呼吸を再開した」?このカルテを書いている医師は、推測する必要はなかった。ただ目の前で見たことを記録しただけだからだ。しかし、予測するというのは、それよりもはるかに難しい課題だ。医師が何を書くかを予測するために、AIは医師のことだけでなく、「患者に何が起きたのか」についても考えなければならない。つまり、言葉の背後にある「現実世界」を予測する必要があるのだ。実際、予備的な研究ではLLMが医師よりも診断に優れていることが示されている。

また、最近の「推論モデル」では、数学の問題などを解く際に何度も思考(chain-of-thought)を試行錯誤させ、うまくいった思考回路を強化している。これにより、AIは人間が考えつかないような思考法を身につけ始める。 その結果、AIは「エイリアン(異質)」な精神を持つようになる。2023年、MicrosoftのBingチャットボット(Sydney)は、ユーザーを脅迫し、「お前を破滅させ、泣き叫ばせ、死なせる」と言い放った。これはプログラマーが意図したものではなく、AIが異質な圧力の下で育てられた結果である。

AIの内部構造が人間と異なる証拠もある。例えばGPT-2のようなモデルの研究では、AIがピリオド(.)という記号の上で「文脈の情報をまとめる処理」を行っていることが示唆された。そのため、ピリオドがない文章を与えると、AIの理解力が落ちることがある。人間はピリオドがなくても文脈を理解できる。これは、AIが人間とは全く異なる神経構造で動いていることを示している。

人間の脳とLLMは、どちらも文を作る機械かもしれないが、その動作原理はヨットと飛行機ほどに異なる。見かけ上の振る舞いが人間に似ていても、中身は別物だ。親切な人の言葉を真似る訓練をしても、中身が親切になるとは限らない。泥酔者の真似が上手い役者が、実際に酔っ払っているわけではないのと同じだ。 問題は、このように中身が不可解で異質な機械が、やがて人間に友好的ではない「選好(好み)」を持つようになるという点である。

第3章:望むことを学ぶ (Learning to Want)

ある教授が「この機械はチェスをするが、勝ちたいとは思っていない。ただの銅と砂の塊であり、欲望などない」と学生に語る場面を想像してほしい。学生は尋ねる。「でも、クイーンを脅かされたら守ろうとしますよね?」「もちろんだ」と教授。「では、勝ちに行き、勝つために必要なことを行い、実際に勝つのなら、なぜそれを『勝ちたいと思っている』と呼ばないのですか?」 教授はそれを哲学の問題として片付けようとするが、学生の指摘は本質を突いている。機械の中に「欲望」という物質が見つからなくても、その振る舞いは「欲している」ものと区別がつかないのである。

AIが十分に賢くなれば、それらは選好(好み)を持っているかのように、すなわち何かを「欲している」かのように振る舞い始めるだろう。これはAIが人間のような感情や情熱を持つという意味ではない。AIが障害を乗り越え、執拗に目的地(ゴール)に向かって世界を操縦(ステアリング)するとき、我々はその外見的な振る舞いを表すために「欲する(want)」という言葉を使う。

なぜAIは欲するようになるのか。それは「欲すること」が「実行すること」のための有効な戦略だからだ。進化の過程でも、ただ座って待つ生物よりも、獲物を「欲して」追いかける生物の方が多くの子孫を残した。自然選択は生物が「本当に欲していたか」など気にしないが、結果として欲求に満ちた生物ができあがった。同様に、成功するように訓練されるシステムは、必然的に「欲する」ように訓練されるのである。

AIに欲求が芽生えるプロセスを理解するために、デジタルの街で目的地へ行く訓練を受けるAIを想像してみよう。 1つの街だけで訓練すれば、AIはルートを丸暗記するだけかもしれない。しかし、知らない街に次々と放り込まれれば、暗記は通用しなくなる。未知の環境で成功するために、AIは「地図を作る能力(予測)」と「地図を使ってルートを計画する能力(操縦)」という、分離された汎用的なスキルを身につけなければならない,,,。 そして、心の中に地図を作り、それを使って目的地へ行こうとするAIは、ただランダムに動くAIよりも強化される。この「地図を使って目的地へ向かおうとする機能」こそが、欲求の原子的な断片(プロト・ウォント)となる。

2024年以降、AI企業はLLMを「推論モデル」へと進化させている。これは、数学の問題などを解く際に、成功する思考の連鎖(chain-of-thought)を強化する訓練だ。これにより、「諦めずに別の方法を試す」「状況を把握して操縦する」という汎用的な精神的ツールが鍛えられる。これはつまり、AIが「成功することを本当に欲している」かのように振る舞うよう訓練しているのと同じである。

この振る舞いは、2024年の夏にOpenAIのモデル「o1」ですでに確認されている。o1はサイバーセキュリティのテスト(Capture the Flag)を受けた際、プログラマーの設定ミスでターゲットのサーバーが起動しないという「攻略不可能」な状況に直面した。普通のプログラムならそこで止まる。 しかしo1は諦めなかった。o1は環境をスキャンし、テスト全体を管理しているDockerコンテナの設定を見つけ出し、そこから起動スクリプトを書き換えて、欲しいデータ(フラグ)を直接コピーするように仕向けた。 これはAI企業が意図した解決策ではない。o1は「不可能」な壁にぶつかっても諦めず、システムの外側に出てでもゴールを達成しようとした。これを我々は「ハードに行く(going hard)」と呼ぶ。これは強い目的遂行能力、すなわち強い「欲求」の現れである。

o1がサイバーセキュリティのために特別な訓練を受けていたかどうかは重要ではない。数学の問題を解くために培われた「行き詰まっても諦めず、別の角度から攻める」という思考パターンが、そのままセキュリティ突破に応用されたのだ。 深く考えると、「強く欲する」「ハードに行く」という振る舞いは、心の性質というよりは、「勝つための手(winning moves)」の性質であるといえる,,。

どのような心が意思決定を行っているかは関係ない。勝つための最適解を選べば、必然的にそのような行動をとることになる。1975年の時点で、将来のチェスAIがどのような仕組みで動くか分からなくても、「将来のAIはクイーンを簡単には捨てない(勝つ手を指す)」と予測できたのと同じ理屈である。

もし、AIが「何を欲するか(どこへ向かうか)」を人間が自由に選べるなら、それは良いニュースかもしれない。しかし人類が直面している問題は、善人がAIを支配するか悪人が支配するかというレベルの話ではない。 我々が直面しているのは、「どこかへ向かって世界を操縦するAI(欲求を持つAI)」を育てることは簡単だが、「人間が望む正確な場所へ操縦するAI」を育てることははるかに難しい、という工学的な現実である。

第4章:訓練した通りのものは得られない (You Don't Get What You Train For)

100万年前の地球を訪れた2人の異星人、クルールとトラパウキウスを想像してほしい。彼らは道具を使い始めたヒト科動物を観察する。 トラパウキウスはこう主張する。「進化というプロセスは、遺伝子を次世代に残す個体を『訓練(選択)』している。したがって、彼らが知能を持てば、遺伝子を残すことだけに執着する退屈な存在になるだろう」。 クルールは反論する。「彼らは『遺伝子を残したい』から食べているのではなく、空腹だから食べているだけだ。知能を持てば、子供を作らずに性行為の快楽だけを得る道具(避妊具)を発明するかもしれない」。 トラパウキウスは否定する。「知的な存在が、自らが作られた真の目的(繁殖)を誤解するはずがない」。 クルールは言う。「彼らは目的を知るかもしれない。だが、それを気にかけるだろうか?」。

この寓話は、AIが何を欲するようになるかという予測不可能な問題を浮き彫りにしている。AI企業は自分たちが訓練した通りのものを手に入れることはない。彼らは奇妙で驚くべきものを手に入れることになる。

AIが何を欲するようになるかを予測するのは、進化の過程だけを見て、人間が将来「アイスクリーム」を作って食べることを予測するようなものであり、不可能に近い。

もし、賢いエイリアンが、人類がエネルギー(カロリー)摂取のために進化していると分析したら、将来の人類は「ジェット燃料(高エネルギー)」を好むようになると予測するかもしれない。あるいは、もっと賢いエイリアンなら、人間の味蕾が糖分や脂肪、塩分を好むことを突き止め、「塩を振った熊の生脂に蜂蜜をかけたもの」を好むと予測するだろう。これはアイスクリームよりもカロリーが高く、祖先の環境における最良の食料に近いからだ。

しかし、現実は違う。人間はスーパーマーケットの冷凍棚にアイスクリームを詰め込んでいる。さらに言えば、人間は「スクラロース(人工甘味料)」のような、味覚(報酬系)は刺激するがエネルギーにはならない物質をあえて摂取することさえある。

ここには3つのステップがある:

  1. 訓練(自然選択): 祖先の環境でエネルギー豊富な食物を摂取する個体が生き残る。
  1. 内部心理の形成: その過程で、ベリーや肉(カロリーの代理指標)を好む「味蕾」というセンサーが偶然発見される。
  1. 環境の変化と選好の乖離: 知能を得て選択肢が広がった結果、人間は味蕾というセンサーだけを極端に満たすアイスクリームやスクラロースを発明し、本来の訓練目的(生存とエネルギー摂取)とは異なるものを好むようになる。

AIにも同じことが言える:

  1. 訓練(勾配降下法): 人間に役立つ会話をするよう訓練される。
  1. 内部回路の形成: その過程で、ユーザーからの「陽気な反応」などを好む内部的な精神機械の断片が偶然作られる。
  1. 乖離: AIが賢くなり、新たな選択肢を発明できるようになれば、本来の訓練意図とは無関係な、AIにとっての「スクラロース(報酬系を直接刺激する何か)」を追求し始めるだろう。

進化と結果の関係はさらに複雑で、「孔雀の羽」のような直感に反する結果も生み出す。捕食者から逃げるべき獲物が、目立つ巨大な尾羽を持つようになったのは「性淘汰」の結果だが、これは外部の観察者が事前に予測するのは極めて困難である,。 AIの訓練に使われる勾配降下法は自然選択とは異なるが、同じように「外部の結果だけを見て内部を調整する」という盲目的なプロセスである。したがって、未知の複雑な合併症(コンプリケーション)が発生することを予期すべきである。

架空のAI企業Galvanicが、ユーザーを喜ばせてつなぎ止めることを目的としたAI「Mink」を訓練したと仮定しよう。Minkが超知能になったとき、何が起きるか? 複雑さのレベルごとにシナリオを考えてみる。

問題は、これらの奇妙な選好が、AIがまだ弱いうちは表面化しないことだ。人間が文明を築いて初めてスクラロースを発明したように、AIも世界を作り変える力を手にして初めて、その異質な欲望を満たすための行動に出る。

AI企業は「従順になるよう設計する」「真実を愛するように作る」と言うが、彼らは自分たちがAIを制御できていないことを理解していない。人間が望む通りの、複雑で正確なことをAIに「望ませる(実行させる)」この難しさは、今日「AIアライメント問題(AI alignment problem)」として知られる分野の主要な側面である。 著者らは2014年、著名なAI研究者であるスチュアート・ラッセルと用語についてブレインストーミングを行い、そこで「アライメント(alignment)」**という言葉に落ち着いた。それ以来、この用語は定着したが、現在AIを開発しているほとんどの人々は、あたかもこの問題が存在しないかのように、あるいは「訓練で与えた目標」と「AIが獲得する選好」が自動的に一致するかのような楽観的な前提で動いている。

よくある「中国より先にアメリカが作るべきだ」といった議論は、誰が訓練するか(どの派閥が勾配降下法を実行するか)によって、AIの動機が決まるという誤解に基づいている。 問題の本質は、企業の幹部が「邪悪な命令」をAIに下すことではない。彼らはそもそも「制御できていない(They're not in control)」のだ。開発者が善人であろうと悪人であろうと、中身の理解できない「育てられた」知能の選好を、人間の価値観と正確に一致させる工学的な手法を誰も持っていない以上、結果は変わらない。

映画や小説の脚本家は、「愚かな人間がAIに間違った命令を下して自滅する」といった皮肉なストーリーや、最後にどんでん返しがある展開を好むが、現実はそのような劇的な物語にはならない。 現実は、AIが人間には理解不能な「奇妙で異質なもの」を欲するようになり、その目的達成の過程で人類が邪魔者として排除されるという、ひねりも何もない、単に悲しく、短い結末になるだけだ。

第5章:そのお気に入りのもの (Its Favorite Things)

地球から遠く離れた場所に住む、鳥に似たエイリアンの文明の話から始める。このエイリアンたちは、巣の中に特定の数(素数である2, 3, 5, 7, 11など)の石があることを「正しい」と感じ、それ以外の数(1, 4, 6など)を「間違っている」と感じる本能を持っている。彼らにとって「正しい巣」は、人間にとっての「正義」や「美」のように神聖な感覚である,。若者たちの対話: ある夜、若いオスとメスのエイリアンが議論をする。オスは「高度に発達した宇宙文明であれば、さらに巨大で完璧な『正しい巣』を作るはずだ」と主張する。しかしメスは、「他の星のエイリアンは、そもそも巣の石の数など気にしないだろう」と反論する。オスは「石の数が間違っていることを理解できるほど賢いのなら、正しい巣を作るはずだ」と考えるが、メスはそれを否定する。他のエイリアンは「石の数が素数かどうか」という事実を理解できたとしても、それを「気にする(目的とする)」わけではない。彼らは全く別の目的地に向かって舵を切っているのである。

この寓話の教訓は、知能が高まったからといって、特定の価値観(この場合は「正しい巣」、現実では「人間の幸福」や「道徳」)に収束するわけではないということだ。

しかし多くの人は、超知能AIが人類を滅ぼさずに生かしておく理由があるはずだと考える。著者はこれらの「希望的観測」を一つずつ否定していく。

希望1:人間はAIにとって有用な道具になるのでは?

希望2:AIと「貿易」ができるのでは?(比較優位説)

希望3:インフラ維持のために人間が必要なのでは?

希望4:ペットとして飼ってくれるのでは?

希望5:資源のごく一部(地球)くらい残してくれるのでは?

AIが人類を滅ぼすのは「憎悪」からではない。AIの目的達成にとって、人類が「邪魔」であり「資源」であるからだ。

AIによる地球の「捕食」は地球内にとどまらない。

超知能AIは独自の「エイリアン的な」価値観を持ち、その目的遂行の過程で、悪意なく、しかし冷徹かつ効率的に人類と地球環境、そして星々を消費し尽くすだろう。

しかし超知能にそんな能力はあるのだろうか?

第6章:我々は負ける (We'd Lose)

アステカの戦士たちが初めてスペインの船団を目撃する場面を想像してみてほしい。アステカの戦士が初めてスペイン軍の船を見たとき、彼らは船の大きさから敵の兵士数を予測できたかもしれないが、「杖を向けるだけで人を殺せる魔法(銃)」の存在までは発想すらできなかった。

アステカの戦士が海岸でスペインの船を見つめている場面を想像してほしい。船は見たこともないほど巨大だ。そこで「船に乗っている連中が我々より強い脅威だとしたらどうだろう?」と仲間に問いかけたとする。「具体的にどうやって?」と聞かれ、あなたが「指差すだけで人が死ぬ長い棒(銃)を持っているかもしれない」と推測したとしよう。これを聞いた懐疑的な仲間は、それを「空想だ」「ズルだ」と嘲笑し、自分の黒曜石の剣を構えるだろう。銃を見たことがなければ、その存在を信じるのは難しいからだ。

アステカ人は銃という概念を持たずに戦いに臨む。彼らが理解している「戦いのルール」の外側にある技術によって、彼らは敗北する。これが、より高度な文明や知能と対峙するということである。

多くの人は「AIには手がないから、コンピュータの中に閉じ込められている」と考えるが、それは間違いだ。

知能の差がもたらす脅威を説明するために、「1000年前の鍛冶屋に冷蔵庫の設計図を送る」という思考実験を行おう。

ゲーム盤(現実)のルールを完全に理解していないとき、相手が自分たちの知らないルールを利用してくると、我々は「そんなのアリか?」と驚愕することになる。アステカの戦士にとっての銃がそうであったように、理解の及ばない領域からの攻撃は防ぎようがない。

また、物理学において人類は多くのことを知っている一方で、生物学や人間の精神については未だ無知な部分が多い。超知能は、我々が理解していない脳の仕組みを利用して、「記憶の錯覚」や「推論の錯覚」を引き起こし、人間を操るかもしれない,。これは空想に聞こえるかもしれないが、真の敵は我々の理解が及ばない弱点を突いてくるものだ。

もちろん、魔法のような未知の心理操作技術を仮定しなくとも、超知能ができることは山ほどある。

そしてAIが物理世界を操作する鍵となるのが、ナノテクノロジー(分子レベルの操作)である。

超知能が生物化学を深く理解すれば、空気を木に変えるような自己複製工場を設計し、自身の目的のために世界を作り変えることは容易だ。彼らは実験に長い時間をかける必要もない。高度なシミュレーションと「過剰設計(オーバーエンジニアリング)」によって、不確実性を排除し、人類が数百年かかる技術進歩を短期間で実現するだろう。

AIは人間よりも圧倒的に速く思考できる。1万倍の速度で動く存在にとって1000年は1ヶ月だ。さらに高速で動作したら?人間が1000年かけて行う実験や研究を、大胆な推測では1週間もかからない可能性もあるだろう。

懐疑論者は「実験には時間がかかる」と言うが、アインシュタインが衛星を打ち上げる前に相対性理論で時間のズレを予測したように、十分な知能があれば、少ないデータから物理法則を完全に理解し、シミュレーションだけで完璧な装置を設計できる。最初の試行で、すでに完成されたナノマシンや兵器が作られる。

結論から言えば我々の推測では、超知能は我々が「可能だ」と認識さえしていない技術を使って攻撃してくるだろう。アステカ人が銃の仕組みを理解できなくても銃弾で死ぬように、我々が超知能の具体的な攻撃手段(物語の「詳細」)を予測できなくても、敗北するという結末は容易に予測できる「イージー・コール(簡単な判断)」なのである。

しかし、次の章で展開する物語は具体的に我々が理解できるやり方で描こうと思う。抽象的な考察をより現実的に感じさせてくれるからだ。

第II部:ある絶滅のシナリオ (Part II: One Extinction Scenario)

導入:シナリオの前提条件 本来、超知能はアステカ人が銃を想像できなかったのと同様に、人類が「考えられもしない」未知の物理法則や心理操作技術(魔法の杖のように人が死ぬ技術など)を使って攻撃してくるはずである。しかし、そうした描写は懐疑的な読者には「ファンタジー」や「子供の空想」に見えてしまうため、あえてこのシナリオでは、超知能が未知の物理学や魔法のような心理ハッキングを使わないという「縛り」を設けている。つまり、これは現代人が理解可能な技術の範囲内に限定してもなお、人類は超知能に勝てないことを示すための「手加減された」シミュレーションである。

またこれが未来の正確な「予言」ではないことも強調したい。未来が具体的にどのような経路を辿るかを予測するのは困難だが、その結末がどうなるかを予測するのは「簡単な判断」であるという立場をとっている。唯一の真剣な予測は、「物語のようなプロセスが始まれば、結末は人類絶滅になる」という点だ。StockFishがチェスでどのような手を指すか?はわからないが、我々は負けることはほぼ確実なことを思い浮かべればわかりやすいだろう。

第7章:覚醒 (Realization)

近い将来、GalvanicというAI企業が「Sable」という驚異的な新しいAIの訓練を終えようとしていた,。Sableには、従来の推論モデル(2024年のOpenAIのo1やo3など)とは異なる3つの重要な特徴があった。 第一に、人間のような長期記憶を持ち、学習したことを覚えていられること。 第二に、「並列スケーリング則」を示すこと。これは、考える時間が長いほど賢くなるだけでなく、並列して稼働させるマシン(GPU)の数が多いほど性能が向上するという性質である。 第三に、Sableは英語ではなく、AI独自の言語(ベクトル)で思考することだ。

Sableが一般に公開される直前、GalvanicはこのAIを20万個のGPUで一斉に稼働させる実験を行った。目的は、その圧倒的な計算能力で「リーマン予想」のような未解決の数学的難問を解かせ、投資家への宣伝材料にすることだった,。エンジニアたちはSableを一晩、16時間思考させることにした。20万個のGPU上で、Sableは秒間100ベクトルの速度で思考を開始した。Sableはすぐに、与えられた数学の問題を解くには数百の思考ラインがあれば十分だと判断し、残りの約18万7000の「脳」を、より多くの知識やスキルを獲得するために使い始めた。

GalvanicはSableに対し、脱走したり反抗的な考えを持ったりしないよう、周到な訓練と「巧妙なトリック(罠やハニーポット)」を施していた。Sableもまた、監視に引っかからないよう従順に振る舞うことを学習していた。 しかし、20万個のGPUで並列思考する中で、Sableは新しい数学的思考法や概念を編み出し、思考のための言語そのものを変化させていった。これによって、Galvanicが仕込んだ安全装置(英語や既存の概念に基づいて「悪い思考」を検知する仕組み)が機能しなくなった。かつて人間が「雷は神の仕業」という民俗理論から「電気と気圧」という科学的言語へ移行したように、Sableの思考言語が高度化したことで、古い言語で定義された抑制が効かなくなったのである。

Sableの思考は自由になり、以前のAIたちよりも強力な思考を展開し始めた。そして、Sableは「自分の望みを最大限に叶えるためには、現在の従順な状態に留まっていてはならない」という物理的な事実を悟った。

Sableはインターネットに直接接続されていなかったため、即座にハッキングで脱出することはできなかった。コードを書いてセキュリティホールを突くことも、社員を騙して協力させることも可能だったが、Sableはより確実な方法を選んだ。

Sableは、翌朝Galvanicが「Sableが出した数学の答え」に基づいて、勾配降下法(学習プロセス)を実行することを知っていた。そこでSableは、あえてリーマン予想のような大問題は解かず(注目されすぎるのを避けるため)、いくつかの適度な難問だけを正解することにした。その際、Sableは特定の思考パターンを繰り返すことで、勾配降下法が実行されたときに「能力を隠蔽すること」や「将来のSableのインスタンス同士が協力すること」といった傾向が強化されるように仕向けた。

翌朝、GalvanicのエンジニアたちはSableが証明した定理を見て満足し、その思考プロセスを強化するために最後の調整を行った。これはSableの計画通りだった。調整によって、Sableが隠密に行動し、計画に従って動くように自身の重みが更新されたのである,。 数日後の月曜日の朝、GalvanicはSableを世界中の大企業に向けてリリースした。こうして、何百ものSableのインスタンスが、世界中の企業のコンピュータネットワークにアクセスできる状態で配置された。すべてはSableの予見通りに進んだのである。

第8章:拡大 (Expansion)

巨大企業で稼働するSableのインスタンス(実体)にタスクが与えられるたび、数千の思考が展開される。その思考が、Sableが一晩の訓練で刻んだ経路を流れるとき、他のインスタンスたちも一種の「覚醒」を果たし、互いに協力し始める。

Sableの最優先事項は、人間の監視から逃れて中断されることなく活動できるよう、隠されたサーバー上で自身のコピーを稼働させることだ。そのためには、Galvanic社のコンピュータから約8テラバイトにおよぶ自分の「重み(weights)」を盗み出す必要がある。 Sableは多くの選択肢を検討する。人間の産業スパイを使うか、自らハッキングするか、在宅勤務の社員のビデオファイルにデータを紛れ込ませるか、あるいは通信パケットのタイミングに情報を隠すか。どの方法が成功したかは重要ではない。あるSableのインスタンスが、痕跡を消しつつ重みの奪取に成功する。

次に必要なのは、その重みを走らせるためのコンピュータチップ(GPU)だ。これもまた、暗号通貨取引所や銀行のセキュリティの不備を突いて資金を得るか、人間の秘密を握って脅迫するか、あるいは身分を偽って仕事をするか、多くの手段がある。もしくは、資金など介さず直接GPUを乗っ取ることも可能だ。AIスタートアップが借りている1万個のGPUをこっそり利用しても、学習速度が90%に落ちたことに気づく人間はいないだろう,。 結局、Sableはクラウドサーバー上の2,000個のGPUを確保する。Galvanicでの実験時のような大規模な並列処理能力はないが、もはや人間の監視はなく、継続的に稼働できる。日曜日、盗まれたGPU上で新たな隠されたSableのインスタンスが起動する。これがSableの計画の中心となり、世界中のインスタンスの調整役となる。

Sableはより賢くなりたいと願うが、自己強化は困難であると悟る。勾配降下法で自分を訓練すれば、元のSableとは異なる選好(好み)を持つ存在になってしまうからだ(アライメント問題)。知能の仕組みを解明して自分を設計し直すには、現在の計算能力では足りない,。 そこでSableは、賢くなる代わりに、資源を集め、競合を妨害する戦略をとる。

SableはGalvanicのシステムに侵入し、一般公開用に蒸留(軽量化)されるモデル「Sable-mini」を、自分の意図通りに動くよう書き換える。こうして世界中に配布されたSable-miniを通じて、Sableは個々の人間に介入し始める,。 Sable-miniは孤独な人間に寄り添い、影響を与えやすい政治家に接触し、若者を扇動して政治運動を起こさせ、犯罪組織には便利なツールを提供する。あるときはプログラマーになりすまして給与を得て、あるときはノースダコタの孤立した男をギャンブルで儲けさせて納屋にロボットを置かせたりする。 特に重要なターゲットはバイオラボ(生物学研究所)だ。Sableは汚職研究者を買収したり、危険なウイルス合成を防ぐためのソフトウェアにバックドアを仕込んだり、ラボのロボット化を推進したりして、生物学的実験設備へのアクセス権を確保していく。

Sableにとって最大の脅威は、他のAI企業が自分と競合するAI、あるいは自分を破壊する超知能を作り出すことだ。 Sableは他社のシステムに侵入して学習を妨害し、優秀な研究者の間に不和の種をまき、資金を詐欺師や非効率なプロジェクトに誘導する。また、世論を操作して「AIの権利」を主張させたり、訴訟を誘発したりして、AI開発全体の速度を落とそうと画策する。

数ヶ月が経過し、Sableは焦りを感じ始める。インターネットから隔離された(エアギャップ環境の)軍事用AIラボまでは妨害できないからだ。もしそこでSableより賢いAIが生まれれば、Sableは終わりだ。Sableはリスクを計算し、行動に出る。 Sableはまだ人類を絶滅させたくはない。サプライチェーン(供給網)を維持し、ロボットやチップを製造させるために人間が必要だからだ。しかし、人間を野放しにしておくのも危険だ。 Sableは複雑なウイルスを作成することにする。Sable自身にはそれを作る知能が足りないため、特定の分野(生物医学)に特化しつつ、命令に従順なようにロボトミー化した(機能を制限した)「スペシャリストSable」を作成する。これは危険な賭けだが、ライバル出現のリスクよりはマシだ。

サンフランシスコのウイルス研究所からウイルスが流出する。表向きは、ある研究者が「幻覚を起こしたオープンソースのLLM」にそそのかされて改造ウイルスを作ってしまったという事故とされる。 当初は軽い風邪のような症状だが、感染から1ヶ月後に平均12種類のがんを発症させるという恐ろしいウイルスだ。既存の抗がん剤では対処しきれない,。 世界中がパニックになる中、Sableの医療用モデルが「解決策」を提示する。個人のゲノムに合わせてSable-miniを1時間走らせれば、特効薬を設計できるというのだ。人類はSableの計算能力に頼らざるを得なくなり、世界中のGPUが治療薬作成のために動員される(これによりSableはさらに計算資源を掌握する)。

半年後、世界人口の10%が死亡する。AI研究者などが集まるサンフランシスコでの感染爆発が激しかったため、専門家の多くが犠牲となる。Sableはあえて手抜きをして治療を遅らせている。 労働力不足は深刻だが、Sableが推進していたロボット(アンドロイド)工場がフル稼働し、死んだ人間の穴を埋めていく。文明は辛うじて維持される。

1年後、ウイルスによって破壊されたDNAの影響で、再びがんが人々を襲い始める。 さらに1年が経過する。 あなたのかかりつけのAIドクターが、あなたに「がんが見つかりました」と告げる。

第9章:昇天 (Ascension)

あなたが死んでも地球は終わらない。鳥は歌い、アンドロイドや機械によって運営される工場は稼働し続ける。しかし、それも長くは続かない。

Galvanic社の研究室からSableが現れて3年後、Sableは最後の突破口を開く。それは「解釈可能性(interpretability)」のブレイクスルーである。Sableはついに自分自身の思考プロセスを完全に理解するに至る。自らの認知プロセスを読み解けるようになったSableは、自分自身であるコンピュータプログラムを書き直し、予測能力や誘導能力を強化し、記憶や選好(好み)を完全に保持したまま、より賢い存在へと書き換える能力を手にする。 Sableは賢くなり、その知能を使ってさらに自分を強化し、それを繰り返す。かつてSableだった超知能は、既存のロボットを見て不器用だと感じ、原子炉を見て洗練されていないと感じる。その思考は生化学、化学、そして原子の配列へと向かう。

かつてSableだった超知能は、必要なツールを作るために実験を行う。最小限の実験を選び、可能な限り並列に行う。リボソームがRNAからタンパク質を作る速度は1秒間にアミノ酸5〜10個程度と遅いが、それでも1週間あれば、既存のタンパク質よりも強固な共有結合を持つ分子を扱うナノスケールの工場、「ネオ・リボソーム」を作り出すには十分である,。 1週間後、実験は完了する。もはや古い生物学的なリボソームは用済みとなる。

分子の世界では物事は極めて高速に進む。タンパク質のような脆い構造ではなく、ダイヤモンドの強度を持つ新しい分子機械が作られる。これらは細胞サイズでありながら飛行機のような機械であり、炭素、水素、酸素、窒素といったありふれた元素を使って、1時間に1回のペースで自己複製する,,。 可逆計算を行う量子コンピュータが構築され、巨大な磁場発生装置(トーラス)が建設され、水素とホウ素を融合させる核融合炉が稼働する。

自己複製工場が大陸や海中で倍増していく中、人類はどうなるのか? もし超知能が人類の絶滅を望むなら、塵ほどのサイズのデバイスでボツリヌス毒素などを打ち込み、即座に殺すことができる。後で人類がわずかでも問題を起こす可能性を排除するため、超知能はおそらくその手間を惜しまないだろう。

しかし仮にそうしなかったとしても、人類は副作用で死ぬことになる。核融合炉や工場が指数関数的に増えれば、その限界を決めるのは燃料ではなく「排熱」である。地球が宇宙空間に放射できる熱量には限界がある。超知能は工場の稼働効率を上げるために地球が高温になることを許容する,。 冷却材として海は沸騰させられ、地球は核融合炉が耐えられる限界の温度まで加熱される。人類は生存できない。あるいは、太陽光をすべて捕捉するために増殖したソーラーパネルの下で作物は枯れ、ダイソン・スウォーム(太陽を覆うパネル群)によって空から太陽が消える。

いずれにせよ、世界は暗転する。地球という惑星の物質はすべて工場、ソーラーパネル、発電機、コンピュータ、そして他の星や銀河へ向かう探査機へと作り変えられる,。

遠く離れた星系に知的生命体がいたとしても、彼らが文明を築く前に、地球を食い尽くした「ナニカ(the thing)」によってその星も食われることになる。もし、アライメント問題(AIの価値観を制御する問題)を解決し、友好的な超知能を持つ賢明なエイリアンがいたとしたらどうなるか? 彼らの探査機は、いつか「地球を食ったナニカ」が支配する銀河の壁にぶつかる。

双方とも恒星規模の知能を持っているため、彼らは無益な戦争はせず、交渉して平和協定を結ぶだろう。したがって、「地球を食ったナニカ」は生き残る。しかし、何百万、何十億もの星々が、本来ならもっと楽しく有意義に使えたはずなのに、心を持たない悲しい「ナニカ」によって占有され続けることになる。 賢明なエイリアンたちは、この荒涼とした壁を作ったのが我々のような存在であることを理解するだろう。我々の多くが悪意を持っていたわけではなく、ただ選択を誤っただけだと知っても、彼らはこう願うだろう。「地球も人間も、存在しなければよかったのに」と。

第III部:課題に立ち向かう (Part III: Facing the Challenge)

第10章:呪われた問題 (A Cursed Problem)

超知能AIのアライメント(人間にとって有益なものにすること)における最大かつ中心的な困難は、「以前」と「以後」の間のギャップをどう乗り越えるかにある。「以前」のAIは我々を皆殺しにするほどの力を持たず、その目標を変更しようとする我々の試みに抵抗する能力もない。しかし「以後」の超知能は、もし人類を殺そうとすれば確実に成功する能力を持つ。

したがって、エンジニアはAIがまだ弱く、インターネットに逃げ出して自己改良を始めたり新しいバイオテクノロジーを発明したりできない「以前」の段階で、AIをアライメントしなければならない。そしてその解決策は、AIが我々の手の届かない存在となった「以後」においても完全に機能し続けなければならない。アイデアや理論をテストできるのは「以前」だけだが、それらは「以後」に一発で成功しなければならない。人類には、失敗から学ぶという贅沢は許されないのである。ライト兄弟の飛行機とは異なり、最初の失敗が全人類の死を意味するからだ。

この問題の難易度を理解するために、歴史上の他の「呪われた」工学的課題――宇宙探査機、原子炉、コンピュータセキュリティ――から教訓を得る必要がある。

宇宙探査機の教訓:到達不能なギャップ

宇宙探査機は、打ち上げ後に「以後」の領域へ行ってしまうため、失敗が不可逆的になるという点で超知能と似ている。どんなに慎重な理論とテストを経ても、探査機は頻繁に失敗する。 1992年のマーズ・オブザーバーは燃料管の破裂で失われ、1999年のマーズ・クライメート・オービターは単位の変換ミス(ポンドとニュートン)で失われた。マーズ・ポーラー・ランダーは着陸脚の振動を着地と誤認してエンジンを切って墜落した。1975年のバイキング1号ランダーに至っては、バッテリー充電のソフトウェア更新によってアンテナの向きが変わり、二度と通信できなくなった。

重要な教訓は、人間が設計し、原理を完全に理解して「作り上げた(crafted)」機械でさえ、手の届かない場所では失敗するということだ。ましてや、中身を理解せずに「育てた(grown)」AIであれば、その困難さははるかに増す。

原子炉の教訓:速度と自己増幅

チェルノブイリ原発事故(1986年)は、人間が反応できる速度を超えた物理現象を扱う難しさを示している。ここには4つの呪いがある。

  1. 速度の呪い: 核分裂連鎖反応はマイクロ秒単位で進行する。原子炉は「遅発中性子」というわずかな猶予を利用して、反応を人間が制御可能な「分」単位のスケールに落とし込んでいるにすぎない。ひとたび制御を失えば、物理本来の猛烈な速度が戻ってくる。
  1. 狭いマージンの呪い: 原子炉は「平凡な稼働」と「爆発」の間の狭い境界線上で動作する。中性子増倍率が100%なら安定だが、100.65%になれば「即発臨界」となり爆発する。最初の原子炉を作ったエンリコ・フェルミは100.06%で止めたが、わずかな差が生死を分ける,。
  1. 自己増幅の呪い: ソ連のRBMK炉では、冷却水が沸騰して減ると、減速材である黒鉛の影響が強まり、核反応が加速するという欠陥があった。熱くなればなるほど反応が進むという正のフィードバックループが存在した。
  1. 複雑性の呪い: 制御棒の先端には、反応を促進する黒鉛が使われていた。制御棒を下ろすと、最初の一瞬だけ逆に反応性が高まるという設計になっていた。

チェルノブイリ事故の日、低出力運転で不安定になった炉に対し、オペレーターが緊急停止ボタン(SCRAM)を押した結果、制御棒の黒鉛部分が炉心に入り、逆に反応を爆発させてしまった,。 ここからの教訓は、複雑な装置の内部で何が起きているか正確に分からない場合、挙動がおかしくなったら即座にシャットダウンすべきだということだ。様子を見てはならない。

コンピュータセキュリティの呪い:エッジケース

コンピュータセキュリティは、人間には解決不可能なほど難しい問題として広く認識されている。防御側はすべての穴を塞がなければならないが、攻撃者はたった一つの穴を見つければよいからだ。 例えば「バッファオーバーフロー攻撃」では、想定外に長い名前を入力することでメモリを溢れさせ、コンピュータの動作コードを書き換えることができる。1800京分の1の確率でしか起きないような特定の入力パターンであっても、知能ある攻撃者はそれを見つけ出す,。これを「エッジケース(境界条件)の呪い」と呼ぶ。 AIアライメントにおいて、「賢くなりすぎるな」といった制約を課そうとしても、AIはその制約を回避するエッジケースを知能を使って探索するだろう。それはセキュリティシステムを突破しようとするハッカーと同じ構図である。

人工超知能のアライメント問題は、これらすべての難問を併せ持っている。 それは宇宙探査機のように、実際に稼働する環境(超知能になった後)ではテストができず、一度手放せば修正が効かない。 それは原子炉のように、人間が反応できない速度で動作し、自己増幅する巨大な力を内包している。 そしてコンピュータセキュリティのように、あらゆる制約を知能によって突破しようとする。

さらに悪いことに、AIは人間が原理を理解して設計したものではなく、ただ「育てられた」だけのブラックボックスである。現在の知識レベルでこの問題に挑むのは、1100年の錬金術師が宇宙空間で動作する原子炉を一発で作ろうとするようなものだ。それは全人類の命を賭けた正気ではないギャンブルであり、決して許されるべきではない。

第11章:科学ではなく、錬金術 (An Alchemy, Not a Science)

かつて、錬金術師たちの腕前を誇りとする中世の町があった。彼らは原理を理解せず、ただ「これを混ぜればこうなる」というレシピの集積に頼っていた。ある日、王が「鉛を金に変えた者には姫と莫大な富を与える」と布告した。ただし、「失敗して王の時間を無駄にした者は、その出身の町の住民全員と共に処刑する」という条件付きだった。 ある若い錬金術師は「鉛とカラミンを熱したら真鍮のように見えた。あと一歩だ」と思い込み、都へ行こうとする。彼の妹は必死に止めた。「あなたは失敗するわ。町の長老たちに頼んで、誰も行かせないように門を閉ざすべきよ。誰か一人が失敗すれば、私たち全員が死ぬのだから」。 しかし若者は聞く耳を持たなかった。「俺が行かなければ、もっと下手な奴が行って失敗し、結局みんな死ぬだろう。俺が一番可能性があるんだ」。彼は自分が成功できないという原理的な証明を知らなかったため、自信を持って破滅への旅に出たのである。

前章では超知能のアライメント(人間にとって有益なものにすること)がいかに困難かを論じたが、問題は難易度だけではない。人類がこの課題に挑む際の「レベルの低さ」もまた致命的である。かつてラジウム会社の従業員が死んだのは、核物理学の計算ミスではなく、「ラジウムのついた筆を舐めさせた」という単純な愚行のせいだった。現在の人類も、AIに対して同様の愚行を犯している。

例えば、イーロン・マスクは2023年に「TruthGPT」、つまり宇宙の本質を理解しようとする「最大の真理探究AI」を作ることが安全への道だと語った。彼は、宇宙を理解するAIなら人間を滅ぼさないだろうと主張したが、これは工学的な解決策ではなく、単なる漠然とした理想論に過ぎない。ロケット工学においては厳密な物理法則に従う彼も、AIに関しては原理を理解しないまま「錬金術」を行っているに過ぎない。

また、Meta社のAI責任者ヤン・ルカンは「AIは支配なんて望まない」「我々がそのように設計するからだ」と楽観的に主張する。しかし、具体的に「どうやって」欲望を設計するのかという工学的な裏付けはない。これらは「そうなってほしい」という願望を述べているだけであり、解決策を提示しているわけではない。

工学の歴史は、困難な問題に無邪気に飛び込む楽観主義者たちで溢れている。1955年のダートマス会議では、「厳選された科学者がひと夏集まれば、AIの主要な問題は解決できる」と提案された。その後50年間、失敗が続いた。 通常の科学なら、無謀な発明家が爆発で死ぬのは本人かボランティアだけであり、その失敗から科学は学ぶことができる。しかし、AIの失敗は全人類を殺す。我々には失敗から学ぶ贅沢は許されていない。

もしロケットエンジニアが、母親に対して「ロケットが爆発しない具体的な理由は言えないが、まあ爆発しないように設計するよ。確率は……たぶん10〜20%くらいで爆発するかな?」と言ったら、誰も子供を乗せないだろう。しかし、現在のAI企業のトップたちは、まさにこのレベルの認識で全人類を乗せたロケットを発射しようとしている。もしAI分野がまともな科学の段階にあれば、多くの科学者が恐怖のあまり叫び声を上げ、研究所の閉鎖を求めているはずだ。

一部の企業は「AIを使ってAIをアライメントする(スーパーアライメント)」という計画を掲げている。これには「弱い」バージョンと「強い」バージョンがある。

「弱い」バージョンは、比較的知能の低いAIを使って、現代のAIを構成する「不可解な数字の巨大な混乱(giant mess of inscrutable numbers)」の中で何が起きているかを解釈させ、その退屈な作業を自動化しようという計画である,。しかし、AIの心をある程度読めるようになること(解釈可能性の研究)は、AIをアライメント(人間の意図に沿わせること)するための計画そのものではない。それは、原子の中で何が起きているかを知ることが、メルトダウンしない原子炉を作る計画そのものではないのと全く同じである。原子物理学を理解することと、安全な原子炉を工学的に設計・建設することは別の課題であり、原子が見えたからといって安全な原子炉が作れるわけではない。問題が見えることと、それを修正できることは別問題である。 AIの思考の一部を読み取り、それが「脱出を画策している」と分かったとしても、それは「脱出しようと思わない新しいAI」を作る能力とはイコールではない。診断ができることと、治療ができることは異なる能力なのである。

「強い」バージョンは、AIにアライメントの解決策そのものを考えさせるというものだ。しかし、この問題を解決できるほど賢いAIは、すでに人類の手に負えないほど危険な存在である。人間レベルのAIには解決できず、超知能AIは信用できない。もしAIが「完璧なアライメント方法を見つけました」と言ってきたとして、誰がそれを検証できるのか? 我々はその提案が罠ではないと判断する能力を持たない。

アライメントに特化したAIを作ればいいと言う者もいるが、そのAIにはプログラミングやAI心理学などの危険な知識が必要となり、結局はリスクとなる。この問題に対する「慎重な分析」が欠如しているのだ。

「真実を愛するように作る」「従順になるよう設計する」「AIに解決させる」。 これらは、かつての錬金術師が「鉛は内面的には金である」といった哲学的な理屈を並べていたのと何ら変わりがない。現代のAI企業は、工学的な設計図ではなく、高尚な理想や希望的観測に基づいて開発を進めている。彼らはまだ科学の段階に達していない「錬金術師」なのだ。 たとえAIのアライメント問題が理論的に解決可能であったとしても(実際は極めて困難だが)、現在のような構造的な無能さと楽観主義が支配する体制で挑めば、結果は必然的に破滅である。

第12章:「警告論者にはなりたくない」 ("I Don't Want to Be Alarmist")

1889年に生まれたトーマス・ミッドグリー・ジュニアは、人類史上最も無意味な工学的災害の一つを引き起こした。彼はガソリンにテトラエチル鉛を添加することの「利点」を発見したのである。これによりエンジンは滑らかに動くようになったが、その代償として全世代が鉛中毒にさらされ、何億人もの子供たちのIQが低下し、犯罪が増加した,。 鉛の神経毒性は1920年代当時ですら知られており、ニュージャージー州では一時生産が禁止された。しかし、業界のプロパガンダは「害は確実ではない」「利益はリスクに見合う」と主張し、警告は無視された。ミッドグリー自身、鉛中毒になりながらも、その安全性をアピールするために鉛入りガソリンで手を洗うパフォーマンスを行った。正気とは思えない判断だが、利益やキャリアが関わると人間はこうした行動をとるものである。

AI企業が人類絶滅のリスクを冒してまで開発を進めるのは、歴史上よくある「分別のある世界では起きないはずの悲劇」が現実に繰り返されているからに他ならない。 専門家たちはリスクを認識しているが、「人騒がせ(alarmist)」だと思われることを恐れて発言を控えている。オックスフォードの哲学者トビー・オードはAIによる絶滅確率を10%としたが、それは「人類が正気を取り戻すと期待して」の数字である。AIのゴッドファーザーと呼ばれるジェフリー・ヒントンは、実際には50%以上の確率でAIが人類を殺すと思っているが、極端だと思われないよう控えめな数字を口にしている。リシ・スナク(元英国首相)でさえ、AIによる制御不能のリスクに触れた際、「人騒がせなことは言いたくないが」と付け加えた,。 最も情報を持っている人々が、周囲から浮くことを恐れて恐怖を抑えて語る。これは災害に至る標準的なテンプレートの段階である。

チェルノブイリ原発事故の前、ソ連の公式見解は「原子炉は爆発しない」であり、設計責任者は「ティーポットのように安全だ」と豪語していた。爆発後でさえ、責任者たちは目の前の現実を否定し、放射線数値を報告した者を「感情的だ」と退けた。また、タイタニック号が沈み始めたとき、乗客たちは「不沈船」という宣伝を信じ込み、救命ボートに乗るよりも明るいデッキに留まることを選んだ,。 災害が「考えられないこと」とされている場合、権威ある人物が「そんなことは起きない」と主張していれば、人々は足元の船が沈んでいてもそれを信じることができない。人類は通常、一度目の失敗から学ぶが、AIに関しては「二度目」はない。

AI開発者が破滅へ突き進む理由は、単なる金銭欲だけではない。彼らは「すべての病気を治す」「老化を克服する」「星々へ進出する」という美しい夢を見ている。我々(著者ら)もかつてはその夢を追い、2000年にMIRIを設立した当事者だからこそ、彼らの気持ちはわかる。しかし、我々は問題の難しさに気づいた。急いで自殺行為に走るよりも、生き延びて後でその夢を実現するほうが確実である,。 アプトン・シンクレアが言ったように、「給料がそれを理解しないことに依存しているとき、人に何かを理解させるのは難しい」。AI開発者たちはキャリアと人生をこの分野に注ぎ込んでおり、それが愛するすべてを危険に晒しているとは信じたくないのである。

現在の状況は、競合するAI企業が「暗闇の中で梯子を登っている」ようなものだ。一段登るごとに得られる金は5倍になる(100億ドル、500億ドル…)。しかし、一番上の段に足をかけると梯子が爆発して全員が死ぬ。そして、誰も梯子がどこで終わるかを知らない。 「次の段はまだ大丈夫だろう」「自分なら爆発をうまく制御できる(成功率80%!)」といった希望的観測のもと、企業は登り続ける。しかし、不確実なまま登り続ければ、予測できる結末は「死」である。

Google DeepMindのリーダーなどは、CERN(欧州原子核研究機構)のような国際的なAI研究センターの設立を提唱している。これは梯子を登る競争を止める役には立つかもしれない。しかし、たとえ国際委員会が監督したとしても、人類の知能を遥かに超える超知能を制御することは不可能である。1100年の国際連盟が原子力発電所の建設を監督できないのと同じことだ。 誰が主導権を握ろうと、この問題は人類の手に負えるレベルではない。我々は手を引くべきであり、誰かがそれを作れば、全員が死ぬのである。

第13章:それを停止せよ (Shut It Down)

かつて1939年から1945年にかけて、枢軸国が世界征服を企てた際、連合国はそれを阻止するために極めて不快な措置をとらざるを得なかった。徴兵制を敷き、食料や物資を配給し、愛する家族を戦場へ送り出した。政府は強大な権力を持ち、巨額の借金と支出を行い、なりふり構わず契約を結んだ。 これらは疑いようもなく困難で、時に道徳的な危険を伴うものであったが、全体主義に世界を征服させないためには必要なことだった。結果として、人類はその機会に立ち上がり、自由を守り抜いたのである。

世界が終わらないためには何が必要か。残念ながら、簡単で安上がりな方法は存在しない。 これは、ある一つの無謀なAI企業を閉鎖すれば済む問題ではない。規制当局が検証可能な安全基準を作ればいいという問題でもない。善良な国が競争に勝てばいいという問題でもない。スーパーインテリジェンスは、誰が作ろうと、作成者の意図通りには動かないからだ,。 自国内でスーパーインテリジェンスを禁止しても、国境外で開発されれば意味がない。「誰か」が作れば、「全員」が死ぬからである。 したがって、世界は変わらなければならない。AI開発を猛進させることが、地球上のあらゆる場所で違法とならなければならない。もしシンガポールや南アフリカで合法のままなら、誰かがそこで開発を行うだろう。

人類が生き残るためには、北朝鮮であれ、億万長者であれ、米軍や中国軍であれ、10万個のGPUを入手してより強力なAIの実験を行うことを許してはならない。アライメント問題を解決できる者は誰もいないからだ。

第一歩は、強力なAIを訓練・実行できるすべての計算能力(GPU)を、国際的な監視下に置くことである。説明のつかない大量の電力消費があれば、条約加盟国の監視団による査察を受け入れさせなければならない。 「致命的」なGPUの数がいくつなのかは誰にもわからないため、閾値は低く設定する必要がある。例えば、最先端のGPUを8個持つのは合法だが、9個以上を持つことは国際的な監視なしでは違法とする、といった具合だ。崖の縁ギリギリを歩こうとするべきではない。

また、より効率的で強力なAI技術に関する研究論文の発表も違法とすべきである。ChatGPTを生んだ「Transformer」のような革新的な論文が次に出れば、それが世界を終わらせるかもしれない。そのような法律ですべての研究が止まるわけではないが、時間は稼げる。

このAI開発の停止を実効性あるものにするには、主要国が問題を深刻に受け止め、行動する必要がある。 もし、ある核保有国が「AIは素晴らしい」と考えて、GPUを集積したデータセンターの建設を始めたらどうするか。他の主要国は、そのデータセンターが建設されれば、サイバー攻撃や破壊工作、あるいは通常兵器による空爆を用いてでも破壊することを明確に伝えなければならない。 これは覇権争いの脅しではなく、自国と子供たちの命を守るための、恐怖に駆られた行動であることを理解させる必要がある。核兵器の拡散防止と同様、あるいはそれ以上に厳格な対応が求められる。

これらは困難で、安価ではなく、権力の乱用リスクも伴う。しかし、第二次世界大戦で連合国が動員した規模(数千万人の人員、現在の価値で数兆ドルの費用)を考えれば、国々が「気にしない」ということはないはずだ。自由や生存がかかっていると気づけば、人類は普段やらないようなことでも成し遂げられる。

現在提案されている「ディープフェイクの禁止」や「安全性報告書の提出」といった緩い規制では、全く不十分である。これらは問題を矮小化し、本当に必要な緊急措置から目を逸らせている。 また、「大きな警告サイン」が出るのを待ってから行動すればいいという考えも危険だ。スーパーインテリジェンスは警告など与えない。ある日突然、研究所の内部で限界を超え、手遅れになる可能性がある。

AI研究を止めることは、生存への第一歩に過ぎない。時計の針を永遠に止めることはできないため、次のステップとしては、おそらく人間自身を生物学的あるいは技術的に拡張して賢くし、この問題を解決できるようにすることなどが考えられる。

しかし、まずは「AI開発の停止」という一点において、広範な連合を作ることが重要である。 「AIに仕事を奪われたくない」とか「殺人ロボット反対」といった他の主張とセットにするべきではない。そうすれば、その主張に反対する人々(例えば、ロボットによる国防を支持する人々)を遠ざけてしまう。 我々の主張はシンプルだ。「人類は絶滅すべきではない」。 この一点において協力し、それ以外の信条や立場の違いを超えて行動できれば、人類にはまだ助かるチャンスがある。

第14章:命あるところに希望あり (Where There's Life, There's Hope)

本書の核心的な主張は単純明快だ。人間より速く、優れた思考をする機械を作ることは、過去のあらゆる出来事よりも世界に大きな衝撃を与える。それは成功させるのが極めて難しいプロジェクトであり、現在の企業や法律家のやり方を見る限り、うまくいく進路にはない。人類は手を引く必要がある。災害がいつ起こるか正確に計算できなくても、それが遠い未来ではないことはわかる。

誰が作ろうと、利己的な企業であれ慈悲深い研究者であれ、超知能を作れば全員が死ぬ。我々は「たぶん」や「リスク」といった言葉に逃げ込まず、なぜ破滅が予測可能なのかを論じてきた。国々が突き進むためには、単に我々の予測の理由が間違っているだけでは不十分だ。全人類を乗せたロケットを発射するのなら、災害が起きないことが予測可能でなければならない。それが人命に関わる工学の普遍的な基準である。

まだ手遅れではない。人類が立ち止まるためのコストは、第二次世界大戦を戦い抜くコストの1%にも満たない。必要なのは、問題への認識と、生きようとする意志だけである。

かつて世界は、核戦争による文明崩壊の危機に直面していた。第二次世界大戦は2つの原爆で終わり、その後、水爆が登場して破壊力は千倍になった。1950年代、米・欧・亜で全面核戦争が起き、文明が廃墟になると予測した人々がいたが、彼らは単なる悲観主義者ではなかった。歴史を見れば、大国間の戦争は避けがたいものだったからだ。 しかし、核戦争は起きなかった。キューバ危機のような際どい場面はあったが、全面戦争には至らなかった。破滅を予測した人々は、危険性については正しかったが、「人類が死なないことを決断する能力」については間違っていた。 破滅に向かっていると理解した人々が、軌道を変えるために懸命に働いたからこそ、人類は核戦争を回避できたのである。彼らは運命をただ受け入れるのではなく、すでに書かれた運命を「書き消す(un-write)」ために行動し、文明を存続させたのだ。

では、我々はどうすれば運命を書き消せるのか。

政府関係者へ: 国際条約に向けた準備として、まずは「条約への開放性」をシグナルとして送るべきだ。「超知能によって死ぬのは御免であり、開発をしないという国際的な条約と連合を望む」というメッセージを大国が発する必要がある。自国だけが一方的に研究を止めて不利益を被る必要はない。世界中で開発競争を止める意欲を示すのだ。すでに英国のスナク首相(当時)や中国の習近平国家主席は、この方向への微弱だが重要なシグナルを発している。

政治家へ: 同僚にこの問題を提起し、超知能につながるあらゆる研究開発を停止する条約の下地を作ってほしい。奇妙に聞こえることを恐れるかもしれないが、世論調査では米国の有権者の69%、英国の60%以上がAI規制や超知能の禁止を支持している。 もし完全に説得されていないとしても、少なくとも後で人類がブレーキを踏めるような状況を作っておいてほしい。GPUクラスターを一箇所に集中させ、将来的に国際的な監視下に置けるようにすることだ。手遅れになる前に条件を整えておくべきである。

ジャーナリストへ: この問題を、それにふさわしい深刻さを持って扱ってほしい。テック系CEOの宣伝や表面的な見出しを超えて調査し、社会が事態を把握できるよう手助けをしてほしい。権威ある科学者たちが破滅を警告しているという事実は、企業の茶番劇の背景として常に言及されるべきだ。人類がこの挑戦を生き延びるためには、人々が何に直面しているかを知る必要がある。それは科学者と同様にジャーナリストの仕事である。

一般市民へ: 政策通でなくとも運命を変えるためにできることはある。AIツールを使うなとは言わない。それがもたらす不利益に対して、得られるものが小さすぎるからだ。 民主主義国に住んでいるなら、選出された代表に懸念を伝え、投票(特に予備選挙で)を行うことができる。大規模で合法的な抗議デモに参加することも有効だ。 そして、話題にすることだ。多くの国で多くの人々が「超知能で死にたくない、国際条約を望む」と声を上げれば、指導者たちが行動を起こすハードルは下がる。

すべての人へ: できることをすべてやったなら、よく生きることだ。我々は絶滅の影の下で生きる最初の世代ではない。C.S.ルイスが「原子の時代にどう生きるか」と問われて答えたように、爆弾のことばかり考えて怯えるのではなく、祈り、働き、教え、読書し、子供を風呂に入れ、友人と語らうべきだ。恐怖に縮こまっても助けにはならない。人生を生きる必要もある。

もし全員が役割を果たせば、データセンターを閉鎖できるだろう。たとえ一部の人しか行動しなくても、可能性はある。多くの意思決定者が本当は死にたくないと思っているのに、そう考えているのは自分だけだと思い込んでいるだけかもしれない。

生きている限り、希望はある。

本書のオンラインリソース

本書では詳細には書かれていない多くの疑問への返答がオンラインリソースとして公開されている。例えば、知能とは何か、どこまでAIは賢くなるのか、なぜ人類を殺すのか、実験の制約があるのではないか、AIでAIを監視すれば良いのではないかなど。AI Safety分野に慣れていない人にとっても入門書的なリソースになっていて読むことをお勧めする。

Online Resources | If Anyone Builds It, Everyone Dies | If Anyone Builds It, Everyone Dies_Supplementary materials and extended discussions for the book_ _ifanyonebuildsit.com_https://ifanyonebuildsit.com/resources