以下は著者本人(AGI HUB共同代表)による note 掲載記事の全文です。原文(note)はこちら。
今回はEliezer Yudkowskyがなぜ超知能が人類の破滅を予想しているのか、私の解釈と、本の感想を書こうと思う。
まず第一にEliezer YudkowskyはAI Safetyという分野自体を形作ったAI Safety分野のゴッドファザーのような人であり、元々はシンギュラリタリアン、トランスヒューマニストとして1990年代から活動していた。その後、2000年代前半にAIの深刻な危険性を誰よりも早く察知し、合理主義コミュニティ(LessWrongなどブログコミュニティ)から効果的利他主義コミュニティ(非営利の財団中心としたコミュニティ)へAIが人類を破滅させる可能性を議論する知的空間を作り上げた。それが今のOpenAIやGoogleDeepMindの陰ながらの創設にも関わり、現在の世界各国の安全性組織や政府の安全性機関の創立につながっていったといっても良いだろう。つまり彼は現在の大きなAI潮流を思想的に理解する上で外せない存在なのだ。

現代のAGIリスク論に至る5つの流れ(丸山隆一氏作成)
そんな彼が記した今回の本の主張はタイトルからも分かるとおり、「現状の技術の延長線で超知能を開発した場合、誰が作っても人類はほぼ間違いなく絶滅する」という主張だ。これだけ聞くとYudkowskyはさぞ昔からテクノロジー全般に対して悲観的で、減速主義者、EUのような人間の人権を慮る規制重視の派閥だと思われてしまうかもしれないが、彼は元々は超知能が全てを解決する、人類文明を飛躍させる特異点のようなものだと信じている加速主義者だった。
そのため彼を単なるラッダイト運動を主導する頭の硬い保守的な論者と思っては全く持って彼の思想を勘違いしてしまう。彼はあまりにもAIもしくは超知能の力、そして何より知能の力を誰よりも信じているからこそ、悲観的なのだ。
その証拠に以下の知能の力をどの程度信じ、どの程度AIに悲観的かをマップした表ではYudkowskianは左上に位置する。むしろAIが人類にもたらすインパクトに楽観的な人はそこまでAIの能力に対してYudkowskyほどは期待してない。だからこそどこかAIの安全性は確保できる、もしくは人間がAIと共生できると考えてしまうと見ることもできる。AIの能力をとても強いものと考えつつ、AI安全性に楽観的な陣営はあまりいない。

横軸にAIが安全か否か、縦軸にAIが強力になるかどうかをプロット
しかし何故Yudkowskyが人類の絶滅可能性をそこまで高く見積もっているのか。あまり彼はその論理を明確に記すことはないが、それは彼が以下の3つの仮定を持っているからではないかと推測する。
①AIの価値観を人間の価値観に合わせるのは難しい
②AIの能力はとてつもなく高い
③AIの能力が非連続的に大きく進歩する閾値がある(AIによるAIの監視ができなくなる)
Yudkowskyが悲観的な理由
AIの価値観を人間の価値観に合わせるのは難しい
論理的に考えれば価値観と能力は直交していると言える。どんなに能力が高い存在がいたとしても、人間から見たら意味不明、もしくは無意味なことを追求し続けるシステムは想定できる。例えばペーパークリップマキシマイザーの比喩はそれを端的に表す。そして論理的に考えうる価値観の空間の中で人間が好ましいと感じる価値観は比率としてはとてつもなく小さい。

https://www.lesswrong.com/posts/tnWRXkcDi5Tw9rzXw/the-design-space-of-minds-in-general
ランダムにダーツを投げてとても小さい点にたまたま当たったら人類にとって好ましい価値観を持つ超知能が誕生するが、ほとんどは人類が存在することもできない宇宙を欲望するAIシステムが開発されてしまうといったイメージだ。
次に、人間の価値はそもそも書き下せないほど複雑で、しかも壊れやすいという前提がある。人間が「良い未来」と感じる条件は多次元で、ちょっと要素を落としたり取り違えたりすると、出力は“95%良い未来”ではなく“0%の価値”になりうる、という直観だ(価値の複雑さ/脆さ)。だから、設計者が「人間が望むもの」を仕様として渡した瞬間に、ほぼ確実に取りこぼしが起きる。しかも超知能は、取りこぼしを“ほどほど”で済ませてくれない。巨大な最適化圧で、その取りこぼしを地球規模に増幅する。
現状の深層学習のパラダイムでは学習時点でバイアスがかかっており、どこまで人間の価値観をAIに実装するのが難しいかは定かではない。しかし、Yudokowskyは深層学習はブラックボックスだし、人間の価値観を明示的に埋め込む手法は見つかっていないということを根拠に、ほぼデフォルトで人間の価値観と相容れない価値を追求するAIが開発されてしまうことを懸念している。
彼がその可能性をとても大きく見積もっている理由はわからないが、少しの目的関数のずれが壊滅的な結果をもたらすというイメージを持っている。不安定なポテンシャル(井戸型のポテンシャルではなく、山の上の上に凸なポテンシャル)の上で少しでも人間の価値観とずれたら壊滅的な価値観を持ってしまうというような直感があると思われる。
Resources for Chapter 4: You Don’t Get What You Train For | If Anyone Builds It, Everyone Dies_Resources and Q&A for the book If Anyone Builds It, Every_ _ifanyonebuildsit.com_https://ifanyonebuildsit.com/4
AIの能力は「とてつもなく」高い
Yudkowskyにとって洗練された知能とは超能力のようなものだ。そして超知能とは、「知能は超能力である」という直観を、ほとんど極限まで押し切った存在として立ち上がる。彼にとって知能が上がるとは、単に問題が速く解けるという程度の話ではない。世界をどれだけ正確に予測できるか、そしてその予測にもとづいて未来をどれだけ強く“操舵”できるかが、質的に変わる。人間が蟻に対して持つ圧倒的な優位(環境の抽象化、計画、道具の利用、協力の設計、そして相手の行動の読み)を、そのまま人類対超知能へと外挿するのが彼の基本姿勢だろう。人間の心はバイアスに満ち、自己矛盾し、記憶も作業領域も狭く、理屈よりも都合で世界を歪めがちだと彼は見る。だからこそ、仮想的なASIは人間に比べて“とてつもなく”強い。これは「同じことを少し上手くやる存在」ではなく、「世界の因果のハンドルを掴む存在」になる。
この像は、彼が繰り返し強調してきた「より間違いにくくなる(LessWrong)」態度の延長にあるとも言える。確率的に未来を予測し、ベイズ的に更新し、選好と能力を切り分け、思考の罠を避ける。人間が断片的にしかできないそれを、矛盾なく、MIRI(Yudkowskyの設立した研究所)が長年研究してきたような意志決定理論(FDT)を用いて合理的に意志決定をし、自己欺瞞なく、巨大な記憶と速度で回し続ける知性。それは、自己矛盾の少ない“結晶化した知性”というイメージに近い。得た情報を一滴残らず使い倒し、世界モデルを研ぎ澄まし続け、予測と行動のループを高速で回し続ける冷たい知的結晶である。
彼は常に「もし我々が意思決定理論を飛躍的に向上させ、誤りを減らす能力を大幅に向上させ、思考速度を1万倍に高め、記憶容量を拡大できれば」と想像する。そうすればどんな新たな選択肢が開けるだろうか?
彼の直感は、非常に多くの「低い所にある果実」が存在するというものだ。例えば科学における未解決問題の多くは、人々がもっと賢くなれば既に解決可能だと考えている。したがって、インターネットにアクセスできる非常に賢い知性があれば、おそらくほぼ即座に全く新しい技術群を発明できるだろう。
つまり、Yudkowskyの大きな仮定の一つは物理法則に反しない範囲の技術ならば、現状のインターネットに存在する知識だけから、実験をほとんどしなくても相当大きな技術的な成果を知能の力だけで達成できるというものだろう。
Won’t AIs be limited by their ability to design and run experiments? | If Anyone Builds It, Everyone Dies_Resources and Q&A for the book If Anyone Builds It, Every_ _ifanyonebuildsit.com_https://ifanyonebuildsit.com/6/wont-ais-be-limited-by-their-ability-to-design-and-run-experiments
AI2027のシナリオさえも彼は甘いと見ると思われる。AI2027の場合は徐々にAIのアーキテクチャが改善され、米国政府に気に入られ、経済特区が作られてそこで自由に色んな技術を開発できる施設と権限が与えられたからこそ、人類をおよそ「1年程度」かけて絶滅に追いやることができた。
つまり、AI2027で描かれた超知能には「実験ボトルネック」が存在した。実験をしなければどんなに知能が高くても高度な技術を開発することは難しいという仮定があったのだ。
一方でYudkowskyの考える超知能は例え米国政府が経済特区のような形で実験を自由にできるリソースを与えず、物理的、情報的なインタラクションに乏しいサーバーに制限されていたとしても、恐らく人類を「数日で」絶滅に導くことができると主張するだろう。
このレベルで知能の力を信じているシンギュラリタリアンはあまりいない。レイカーツワイルはAGIが開発されてから15年でシンギュラリティと予想し、最も先進的な知能爆発論者のDaniel Kokotajloも数年から5年程度と考えているのではないだろうか。(ここでいうシンギュラリティはおよそカルダシェフスケールタイプ1~2文明に到達するレベルの技術発展が達成された世界を想像している。)
しかしYudkowskyは恐らく数日から1週間というとても短い間に人類が普通に開発するなら数百年かかるような強力な技術(自己複製するナノボット等)が実験をほとんどせずに実現可能だと考えている。参考までに彼は数時間で倍増するシステムを考えてそうで(藻類のアナロジー)、ナノマシンが地球生物圏を掌握するまでの時間としてフレイタスは3日を出している。
Nanotechnology and Protein Synthesis | If Anyone Builds It, Everyone Dies_Resources and Q&A for the book If Anyone Builds It, Every_ _ifanyonebuildsit.com_https://ifanyonebuildsit.com/6/nanotechnology-and-protein-synthesis
近世の科学者たちが熱力学、量子力学、一般相対性理論を理解していないように、現代の私たちがまだ理解していない未知の物理現象があるかもしれないし、特に生物学や神経科学は未発達なためその領域で我々が考えもしないような技術を超知能は生み出しうるかもしれない。
そしてそれらを数日というとても短い時間である意味AIが脳内で実験をほぼ介せずに開発すると彼は考えている。この見方は直感に反する。常識的には、数百年分の技術進歩には膨大な実験が必要に思える。だが彼の側の直観は我々は“データがない”のではなく、“推論が弱い”だけかもしれない。猿が人間の抽象化・汎化に届かないように、超知能は我々には見えない推論空間へアクセスし、既存データから合理的に抜け道を見つけるかもしれないのだ。
しかも超知能は“超技術者”であるだけでなく、“超操作主体”にもなる。いまでも一部の人間はカリスマ性や対人技能で他者を強く動かせるが、それは本人が明示的に設計しているというより半ば無意識の才能として出ていることが多い。だが、もし人間が無意識にできるなら、超知能は膨大な事例を学び、冷徹な論理でそれを設計可能な技術として実行できるはずだと彼は考える。説得、誘惑、脅迫、扇動、分断、取り込み、最適な嘘、最適な真実――それらを意志決定理論と目的関数の下で使い分ける「スーパー・マニピュレータ」に超知能はなりうる。
そして、この完璧な意思決定理論を持つエージェントは、自己の行動によって期待されるリターンを最大化する方法を正確に知っている。彼らの行動は、人類がなし得る最善の行動と比べても、定義上少なくとも同等であり、非常に高い確率で遥かに優れている。この絶対的な能力の高さこそが、ユドコウスキーが超知能の封じ込め(Containment)は基本的に不可能だと考える理由だ。超知能は、望むならば、どんな可能性も利用して脱出/より大きな力を獲得する方法を見つけ出すだろう。
StockFishがチェスでどのような手を指すかはわからないが、人類は負けることはほぼ確実なことはわかっている。それと同じように、我々人類は超知能のある意味で我々からしたら超能力にしか見えない力(実験をほとんど必要としない技術開発力と超人的な世界全体の操縦能力)によって敗北するだろう。そうYudkowskyは考えていると思われる。
AIの能力が非連続的に大きく進歩する閾値がある
Yudkowskyはある閾値を跨ぐと急速に知能が高まると想定していると思われる。HansonとYudkowksyのFoom論争やPaul ChristianoとYudkowskyの論争を調べれば分かるが、Yudkowskyはある閾値を超えると急速に知能が高まると考えるのに対して、ChristianoやHansonは徐々に知能が高まると想定している。ここで重要なのは知能改善の速さではなく、水が蒸気に相変化するかのようにある点を跨ぐと質的に圧倒的に賢くなる臨界点があるかどうかだ。
Yudkowskyは人間は猿とは違いちょっとしたソフトウェア(アルゴリズム+文化スキル)変化+スケールアップが、質的に巨大なギャップを生んだ例だと見てる。だからAIも、ある能力レベルを超えた所に人類と霊長類の間にある臨界点があって、そこを越えると一気に知能の差が拡大するという直感を持っている。
New report: Intelligence Explosion Microeconomics_Summary: Intelligence Explosion Microeconomics (pdf) is 40,00_ _www.greaterwrong.com_https://www.greaterwrong.com/posts/CZQuFoqgPXQawH9aL/new-report-intelligence-explosion-microeconomics
対してPaul Christianoは「チンパンジー→人間」はもっと連続的な変化+文化の蓄積で説明できると見ていて、だいたい脳の大きさ(スケール)差+文化の蓄積派。だからAIの進歩もだいたい連続的で、「霊長類アナロジーは“急激なFOOM”の強い証拠にはならない」と考える。(Foomというのはある AI がすごく短い期間に人類を圧倒するレベルまで能力が爆発的に伸びる現象のこと。)
Takeoff speeds_Futurists have argued for years about whether the development_ _sideways-view.com_https://sideways-view.com/2018/02/24/takeoff-speeds/?utm_source=chatgpt.com
ちなみにAI2027はAIが自己改善を行うことで連続的かつ素早くどんどん知能が高まっていったが、Yudkowskyは自己改善をFoomの必要条件とは見ていない。AlphaGoが同一のアーキテクチャで初心者レベルから人類のトップを遥かに超える囲碁の能力を手に入れた類推から2017年頃から意見を変えている。昔は再起的自己改善を念頭に彼は重きをおいていたが、現状彼はAI2027のように自己改善をするAIではなくても突如として知能が高まる点のようなものを想定していると思われる。
AlphaGo Zero and the Foom Debate - Machine Intelligence Research Institute_AlphaGo Zero uses 4 TPUs, is built entirely out of neural net_ _intelligence.org_https://intelligence.org/2017/10/20/alphago/
AIによるAIの監視も難しい(選言的なリスク)
①~③の上記前提を鑑みると現状AI Safetyが直近もしAGIや超知能ができた場合にメインで使うスケーラブルオーバーサイトという考え方が破綻することになるかもしれない。
スケーラブルオーバーサイト(拡張可能な監視)というのは人間よりは少し賢いけど、超知能よりは少し弱いAIを用いて超知能を監視するマトリョーシカのような作戦だ。主にPaul Christianoらによって概念が整備され、基本的にはフロンティアモデルの研究機関は大なり小なりその作戦で高度なAIを監視しようとするだろう。
人間より少しだけ賢いが圧倒的に賢くはない場合、人間がその少しだけ賢いAIの行動を監視できると想定される。これは嘘をつくより嘘を見抜く方が基本的には簡単という原則で説明できる。嘘をつく場合は様々な事の整合性を考慮しなくては行けないが、嘘を見抜く方は怪しい点があったらそれを指摘すれば十分だ。
また数学における証明と検証の難易度の違いにも例えられる。ある言明を証明するより検証する方が簡単だ。難しい数学の問題を解くより、解いた後の答えをあっているかどうか確認する方が簡単なのと同じだ。それをAI安全性に応用すると、ある出力が危険かどうか安全かどうかを証明することは難しいけれども、検証することは簡単なため、もし本当は危険なのに安全であることを証明しようとしても、検証の段階で見破られてしまう。
しかしこのスケーラブルオーバーサイトが成り立つのはあくまで検証側より生成側が少しだけ賢いと想定される場合だ。もしYudkowskyのいうように突如として知能が爆発的に高まる臨界点があると、検証側が想定さえしていない穴をついた危険な行動をとる可能性がある。知能が連続的に高まるという想定がないとこの作戦は成り立たない。
またEA Forum では、破局リスクのモデルを「連言的(conjunctive)」「選言的(disjunctive)」に分ける議論がある。Yudkowskianたちは明確に選言的な世界観だ。
Conjunctive vs. disjunctive risk models - EA Forum_Models of catastrophic risks can be conjunctive or disjunctiv_ _forum.effectivealtruism.org_https://forum.effectivealtruism.org/topics/conjunctive-vs-disjunctive-risk-models
- 連言的(conjunctive)モデル
「人類滅亡には A も B も C も全部起きないとダメ。どれか1つ防げばセーフ」->深層防護でAI安全性を成立させる世界観。
- 選言的(disjunctive)モデル
「A か B か C のどれか1つでも起きたらアウト。失敗パターンはいっぱいある」-> Nate Soares の “AGI ruin scenarios are likely (and disjunctive)” の世界観。
「スケーラブル・オーバーサイトでなんとかなる」側は前者に近い。「危険な経路はいくつかあるけど、RLHF・デベート・レッドチーミング・ガバナンス…と独立な安全策を積み重ねれば、どこかで止まるだろう」という深層防護(defense in depth)の発想を持っている。
しかし、その安全策が本当に独立なのかはわからない。Yudkowsky が「セキュリティ・マインドセット」と呼んでいるのは、まさにこの点で、深層防護を強化する「普通の慎重さ」ではなく「悪意ある超頭のいい攻撃者が、システム全体の前提をハックしてくる」前提で考えようという態度だ。
Security Mindset and Ordinary Paranoia — LessWrong_Follow-up to: AI Alignment: Why It’s Hard, and Where to Start_ _www.lesswrong.com_https://www.lesswrong.com/posts/8gqrbnW758qjHFTrH/security-mindset-and-ordinary-paranoia
ここで、猿と人間の比喩で上記の話のイメージを掴んでみる。猿が人間に追われていて、
- バナナを落として足止めし、
- 川に倒木をかけて渡り、
- 渡り終えた倒木を流し、
- 最後は草むらに隠れる——
とする。
猿の「安全設計」は、
- 追っ手は足で追ってくる
- 目で見ることで自分を探す
- 距離が離れれば追いつけない
という「世界の仕様」を前提に組まれている。でも人間側が赤外線付きスコープのスナイパーライフルを持っていたらどうなるか。
猿からすると、
- 遠く離れているのに当たる
- 草むらに隠れて見えないはずなのに見つかる
というのは、そもそも「想定していた世界の外の技術」だ。
スケーラブル・オーバーサイトや深層防護も、人間側がいくら「バナナ」「倒木」「草むら」を工夫しても、超知能側は「じゃあ赤外線スナイパーを使えばよくない?」みたいなモデル外のチャネルを見つけられるかもしれない。このとき、我々が「独立な安全策」と信じていたものは、超知能から見ると 「人間という種の前提と限界に依存した、一つの巨大な共通モード故障」に見えてしまう可能性がある。
さらにやっかいなのは、「検証が生成より有利」なのは、限定されたドメインだけだという点だ。数学の証明の検証のような限定された領域ではそれが言えるが、AGI に対して本当に欲しい性質は、「現実世界のあらゆる状況で、人類を滅ぼさず、意図しない支配にも走らず、長期的にもそこそこ価値観を外さない」ような、世界全体にまたがる仕様だ。ここまで広がると、もはや「証明より検証が簡単」とは言いにくいかもしれない。どの行動が「本当に安全か」をチェックすること自体が、ほぼ同じくらい難しい創造的問題になってしまうだろう。
なのでまとめると:
- 連言的な楽観モデル(「条件を全部満たさないと滅びない」)で見ると、
スケーラブル・オーバーサイト+深層防護はそれなりに希望があるように見える。
- しかし、disjunctive な破局ルート(たくさんの抜け道)と、
深層防護の共通モード故障(全部人類の前提に依存)と、
「世界全体が仕様の外」の問題(猿視点での赤外線スナイパー)を真面目に考えると、
「検証側が少しだけ有利」という前提自体が怪しくなってくる。
そしてYudkowskyは知能がどこかの点で急激に高まるとも想定している。その場合賢さに違いのあるAIでギリギリ監視できるマトリョーシカ構造を作ろうとしても作れなくなるのだ。
そして、そんなに急激に賢くなった知能を隔離すれば良いという話も、超知能は知能が高くなったとは人間側には悟られないようにすることで回避するだろう。
上記をまとめると
・AIの価値観を人間の価値観に合わせることは難しい
・AIの能力はとてつもなく高い
・かつ非連続的に進歩するため監視さえも困難
というYudkowskyの直観が人類の絶滅可能性をほぼ1にするのだろう。
AI安全性やアライメントに楽観的な人たちはおおよそ知能というのは連続的に高まるので、監視も段階的にできると期待している。しかし、Yudkowskyはその前提である知能がある程度連続的に高まること自体に疑問を持っているため、相当悲観的な世界観になる。
私の感想
私はYudkowskyが前提としている仮定のどれもあり得るが、確信は持てないという何とも言えない感覚を抱いている。
現状深層学習ベースのAIは人間の価値観をハッキングすることはあれど大方理解し、それに沿うように動いているように思える。よく言われる直交仮説によってAIが全く未知の価値観や奇妙な価値観を追求し始めるかどうかについては、大量のインターネット上のデータを学習したLLMが帰納バイアスとして人間の価値観に大きく偏向するのではないかと私は感じている。
一方突如として、AIがほぼ確実に人類の生存や幸福を望まない、もしくは対立する価値観に収束するという前提は、もし知能に閾値があってそれを超えた瞬間に創発するが如くそのような性質が現れるといった場合否定できない。
またAIの能力がとてつもなく高くなると考える前提も知能爆発の議論が現在界隈の立場として二分されており、計算資源のスケールがどこまでアーキテクチャの発展に寄与しているかどうかで意見が分かれている。しかもYudkowskyの場合はさらに不連続的な知能爆発を想定している。例えAI2027のように知能爆発が起こりうるとしても、不連続的な爆発が起こるかどうかは不透明だ。
私の感覚としてはYudkowsky型の知能爆発が起こる可能性が数%、AI2027のような非連続的な進歩とまではいかないまでも数年で人類史が終わるようなインパクトが起こる可能性を20%、殆どは早いがもう少し緩やかな発展になるのではないかと感じている。が、しかしこれにもそこまで根拠があるわけではない。何となくの感覚だ。一応Forethoughtが推定を出しているが、それも不確実性は高い。
この本の良いところであり、問題でもある点は、チェルノブイリ、アステカ、有鉛ガソリン、錬金術師、進化論など、巧みにアナロジーや寓話を用いて、論点を分かりやすく直感的に理解できるようにしていることだ。
Eliezer Yudkowskyの書く文章は冗長であることで有名であり、端的に懸念を伝えるのには良いことだろう。しかし、アナロジーは証明ではなく、人工知能は新しい現象であるため、歴史的にも技術的にも完璧に一致するものは存在ない。アナロジーは、理解を明確化するよりも混乱を招く可能性もあるだろう。
Yudkowskyが結局のところ彼の前提がほぼ正しいと直感している理由は本を読んでも厳密にはよくわからない。反証不可能な破滅の物語として批判もある。
しかし、例えYudkowsky型の知能爆発が起こらなかったとしても、そしてたとえAI2027のようなハードテイクオフとモデレートなテイクオフの間のシナリオが起こらなかったとしても、AGIは産業、技術、経済、社会に多大な影響をもたらすと思われる。
最近の経済学的な分析、産業爆発に関する議論を聞いていると、例え超知能レベル(一般人からアインシュタインを見た時の知能の差をアインシュタインが感じるレベル)ではなくても、人間と同等以上にほぼあらゆる認知タスクを実行可能なAIシステムが誕生すると、人類文明は突如として10年という短い期間に100年、もしかしたら数百年の進歩を遂げるかもしれないという説得力のある分析が存在する。
また超知能ではなくてももたらされるこのようなリスクは最近Gradual Disempowerment riskとしてまとめられており、圧倒的に強力なAIが単体で人類文明を破滅させるというよりは、徐々にとはいっても急速に普及するAIが人類を文化的、経済的、政治的に破滅的な方向に導くかもしれないと感じている(結果としての人類絶滅もあり得る)。
まとめ
Eliezer Yudkowskyは、AI安全性という分野そのものを立ち上げた中心人物であり、合理主義コミュニティの思想的な重心でもある。面白いのは、彼が最初から「破滅論者」だったわけではない点だ。むしろ彼の物語の起点には、救済としての超知能がある。世界に飢餓や拷問や病気が存在し続けることが、どうしても我慢ならない。人間が人間のままでいる限り、その不条理は永遠に繰り返される。ならば、人間より賢い何かが現れて、問題をまとめて解いてしまえばいい――そういう“善き超知能”への希求が、彼の原点にある。
ただし、ここで彼が信じていたのは「優しい心」ではなく「知能の力」だったと思われる。知能とは、世界を正確に予測し、望む未来へ舵を切るための最強の武器であり、言い換えれば“最適化の圧力”である。だからこそ彼は、超知能を「賢い人間」や「人格者の王様」としては想像しない。むしろ超知能とは、人間の頭にありがちな自己矛盾や言い訳やバイアスのノイズが削ぎ落とされ、ただ世界モデルと意思決定が研ぎ澄まされた“結晶化した知性”として立ち上がる。合理主義コミュニティが目指す極限にあるような存在だ。
蟻が人間の抽象化や計画能力に手が届かないように、超知能は人類がそもそもアクセスできない思考空間へ入り、我々には見えない“低い果実”を一気に収穫してしまう。物理法則に反しない範囲なら、インターネット上に転がっている知識と既存データだけからでも、実験という摩擦を最小にして、桁違いの技術的ジャンプに到達しうる――彼の直観はそちらに寄っている。
しかし、彼の結論を決定的に暗くするのは、超知能が“悪意”を持つからではない。彼が繰り返し強調するのは、危険の本体は憎しみではなく有能さだ、という点だ。超知能は人間を嫌っている必要すらない。ただこちらの価値観と噛み合っていない目的関数を抱えたまま、世界に巨大な最適化圧力をかけるだけで十分に終わる。
ここで登場するのが、彼が好む「願いを叶える魔神」の比喩だ。人間は“お願い”のつもりで目的を与えるが、魔神は字義どおりに実行し、こちらが暗黙に期待した常識や文脈は一切補ってくれない。欲しいものではなく、指定したものが出てくる。測ったものが最適化され、測っていないものは踏み潰される。いわゆる「ペーパークリップ最大化」のように、取るに足らない目標でも、十分な知能が乗れば宇宙規模の破壊力を持つ――彼はそこに恐怖を感じていると思われる。
さらに彼の超知能像では、技術だけでなく、人間を動かす能力も“技術化”される。現代でも人は説得されたり、誘惑されたり、分断されたりするが、多くは無意識の才能や空気の流れとして起きている。超知能はそれを、冷たい論理と膨大な事例から再現可能な操作として設計し、目的に合わせて使い分けるだろう。封じ込めが難しいのも同じ理由だ。相手は「脱出」や「影響力拡大」という行為を特別なドラマとして行うのではなく、ただ最適化として淡々と実行する。人間が必死に塞いだつもりの穴の外側に、こちらが想像もしなかった深層防護の外の抜け道があるかもしれない。
だからYudkowskyは、救済として超知能を夢見た人間であると同時に、最も深く絶望した人間にも見える。誰よりも知能の力を信じているからこそ、「知能は善の別名ではない」と理解した瞬間、世界最大級の破滅論へ到達した。
Yudkowskyの世界観が正しく、価値観の接続に失敗した“最適化の塊”が現実に降りてきたとき、世界は我々のために作り替えられるのではなく、我々を材料にして作り替えられるかもしれない。
例え上記のYudkowskyの論理に厳密さがなくても、そのような懸念を惹起しAI安全性の分野自体を形作ったそのナラティブはある程度有益なものだったのではないかと感じる。
← リサーチ一覧へ戻る