Research

AIのもたらす深刻なリスクとその歴史的背景概要

2024.01.29 ／ bioshok ／掲載: note

AI Summary

AIへの存亡リスク懸念は19世紀後半に源流があり、1990年代のBostrom・Yudkowskyらの議論を経て、2010年代に効果的利他主義運動と合流し国際的な影響力を持つに至ったという歴史的経緯を概観する。
アライメント未解決のまま高度なAIが実現すると、欠陥のある目標の最適化、権力・資源の追求、シャットダウンへの抵抗、欺瞞的な振る舞いなどを通じて、悪意の有無にかかわらず壊滅的な結果が生じうると論じる。
原子炉安全で用いられる深層防護の考え方をAIリスクに応用し、予防（ガバナンスとアライメント研究）・対応（セキュリティや病原体検知）・回復力（シェルター等）の三層で全体リスクを下げる構想を例示する。
「なぜ賢いAIが愚かな目標を持つのか」「シャットダウンすればよいのでは」といった典型的な疑問に、直交仮説や道具的収束の概念を用いてQA形式で回答している。

このサマリーはAIによる自動生成です。正確な内容は必ず原文をご確認ください。

この論考の背景

本記事は、著者が公開した長編レポート「AIのもたらす深刻なリスクとその歴史的背景」の概要・QA・関連資料を抜粋したものです。なぜAIが人類の存亡に関わるリスクをもたらしうると国際的に考えられつつあるのか、その論理と歴史を一望できる入門的な位置づけにあります。アライメント問題が未解決のまま能力向上が進むことへの懸念が議論の核となっています。

専門家の間でもAIによる存亡リスクの蓋然性には議論があることを著者自身が強調しており、断定ではなく「影響の大きさと解決に要する時間を踏まえた早期の備え」を訴える構成です。AIリスクの全体像を学びたい方はAGI入門もあわせてご覧ください。

論考のポイント

歴史的背景 — AIによる存亡リスクの懸念は新しいものではなく、19世紀後半から続く議論が2010年代に国際的な政策課題へと発展した過程を辿る。
リスクの論理 — 知能と目標は独立だとする直交仮説と、資源確保や自己保存がほぼあらゆる目標に役立つという道具的収束が、制御不能リスクの中心的な根拠とされる。
深層防護 — 予防・対応・回復力という独立した三つの防御層を組み合わせ、単一の対策に依存せずに人類絶滅リスク全体を低減するアプローチを提案する。
早期対応の合理性 — 技術的・政治的な問題の解決には数十年かかりうるため、高度なAIの実現が先でも今からリスク削減に取り組む合理的理由があると結論づける。

以下は著者本人（AGI HUB共同代表）による note 掲載記事の全文です。原文（note）はこちら。

I saw the work performed by intelligence; smart was no longer a property, but an engine.
私は知性による仕事を目の当たりにした。賢さはもはや財産ではなく、エンジンだった。
(Eliezer Yudkowsky)

My Naturalistic Awakening

本記事は以下私が公開した「AIのもたらす深刻なリスクとその歴史的背景」の概要とAI存亡リスクに対する深層防護的な対策、QA（AIが何故存亡リスクを導くか等）、関連資料を抜き出したものです。

詳細は以下のGoogle Docsから参照ください。

AIのもたらす深刻なリスクとその歴史的背景(公開版)_docs.google.com_https://docs.google.com/document/d/1Ojhwcnr72DGSH5zuZAxuGtwJmU7zKQs2zExEx-NRN_E/edit?usp=sharing

概要

私たちが今いる21世紀は過去人類が体験したことのないような技術の発展の最中にあるかもしれず、特に近いうちに高度なAIが開発され、様々な意味で劇的に世界が変わる可能性があります。

その一方で今世紀に人類が何らかの要因で壊滅的な結果や人類絶滅を含む存亡的破局を迎えてしまった場合は我々人類の未来の可能性が失われてしまうかもしれません。

そのような存亡/壊滅的リスクの中でも特に、AIの能力が高まるにつれてAIを制御できなくなるリスクが懸念の中心になり始めています。

本記事ではなぜAIが人類存亡/壊滅的リスクをもたらすと国際的に考えられつつあるかの論理と提案されている技術的な解決策(AI Alignment)やガバナンス、またそのように考えらえるようになった歴史的背景を説明します。

歴史的にはAIによる存亡リスクへの懸念自体は19世紀後半から存在し、1990年代にNick BostromやEliezer YudkowskyによってTranshumanismの挫折可能性として認識され始めました。2000年代には彼らによりAIによる存亡リスクへの対策が具体的に論じられ始め、2010年代には効果的利他主義運動とも合流し、国際的にも大きな影響力を持つようになり始めています。

一方AI分野自体は2010年代に深層学習によって大きく進展しましたが、特に2020年代から大きくAIの能力が向上し始め、ほとんどの認知タスクにおいて人間をはるかに上回る高度なAI(≒超知能)の実現が予想以上に早い可能性が認識され始めました。

そのような高度なAIの実現が近いかもしれないにもかかわらず、現状人間の意図した目標をAIの目標と整合させるAI Alignment問題の解決の兆しはあまり見えていません。

AI Alignment問題が解決されないまま高度なAIが開発された場合、AIが有能に欠陥のある目標を最適化したり、本来の目標から外れたり、権力や資源を求めたり、シャットダウンに抵抗したり、あえて嘘をついたり猫を被ることで策士的な欺瞞に関与するリスクが懸念されます。

その結果、囲碁でAIが思いもよらない戦略で人類トップに打ち勝ったように、私たちが想像もできないような方法でAIがAI Alignment手法やセキュリティの網を乗り越え、最悪の場合悪意の有無に関係なく、AIの目標追求に既存の人類社会が邪魔になるという道具的な理由のため、結果的に人類に壊滅的な結果がもたらされる可能性が一部の人々により危惧されています。

また、人類へのある種の攻撃という目標をAIが道具的な目標として持たなかった場合でも、多くの高度なAIが複雑に相互作用し進化していく社会のなかで、人間がAIをコントロールすることが徐々に難しくなり最終的には人間が重要な意思決定に全く関与できなくなる可能性もあるでしょう。

その場合、生存に必要なリソースが確実に人類に提供されるかは定かではありません。何らかの工業プロセスが人間の生存可能な範囲を超えて環境を激変した結果、人類が絶滅する可能性もあります。

他にも高度なAIの開発や取得のハードルが技術発展によって下がり、全体主義への使用、戦争や紛争のエスカレート、テロリストによる悪用のリスクも考えられるでしょう。AIが新たなパンデミックを引き起こすバイオテロに使われたり、プロパガンダ、検閲、監視に利用されたり、有害な目標を自律的に追求するためにAIが解放されてしまうリスクがここに当てはまります。

このようなリスクは以前からもありましたが、AIの能力が高まるにつれて、その被害も類を見ない規模になる可能性が高まります。

その一方で、上記リスクを理由にAIの能力向上に関する開発を世界的に止めることも現実的ではなく、安全意識の低い主体が開発するよりも前に、ある程度急いで安全意識の高い側も開発しなくてはいけないインセンティブがあるでしょう。それは例えるならば、地雷原をできるだけ早く駆け抜けるゲームを人類がしているようなものかもしれません。

新しいテクノロジーに関する我々社会の典型的な戦略の一つは、それらを導入した後に時間をかけて軌道修正し、問題が発生した後に解決するというものです。たとえば、現代のシートベルトはT 型フォードの登場から43年後の1951 年まで発明されませんでした。消費者用ガソリンには、段階的に廃止されるまで、数十年にわたって神経毒鉛が含まれていました。

高度なAIに関して言えば、これらのシステムを適切に制御することに比較的早い段階で失敗すると、後の軌道修正ができなくなり大惨事が生じる可能性があります。つまり、人間が自分自身の社会の軌道修正能力を決して失わないように、問題をかなり前に予測してAIのもたらすリスクに技術的/政治的に対処する必要性が国際的に広まりつつあると言えるでしょう。

近い将来にAIによる存亡リスクがあり得るということに全ての専門家が同意しているわけではなく、議論があるということは強調するべきです。

しかし技術的/政治的な問題は解決するまでに数十年かかる場合があり、また結果として起こり得るインパクトも大きいため、たとえ高度なAIが実現するのが数十年先であり、壊滅的な被害が起こる可能性が大きくないとしても、今からAIによる存亡/壊滅的リスク削減のために取り組み始める合理的な理由があると思われます。

今後AIがどこまで進歩するのかは本質的には不明瞭ですが、AIが自律的に人類の未来を奪ってしまう可能性や、その悪用、AIの開発競争や戦争や全体主義での使用といった構造的リスクの危険性を踏まえて今から技術的な解決策やガバナンスに関する議論や準備を始めていく必要があるでしょう。

深層防護(AI Alignment/Governance)

実際にAIによる存亡リスクを低減させるためには、複数の独立した安全システムによるリスク低減の概念である深層防護(Defence in depth)と呼ばれる原子炉安全性でもよく使われる概念が役に立つかもしれません。Future of Humanity Instituteによって深層防護の考え方を人類絶滅リスクの低減に応用する論文が出されています。

論文内では以下の図のような三つの防御層を提案しています。

三つの広範な防御層

**・第一層：Prevention(予防)、大惨事が発生する可能性を減らすこと

・第二層：Response(対応)、大惨事が文明の将来を脅かす可能性のあるレベルの深刻な地球規模の大惨事になる可能性を減らすこと

・第三層：Resilience(回復力),

深刻な地球規模の大惨事が最終的に人類の絶滅を引き起こす可能性を減らすこと**

それぞれの防御層で対策を立てることで全体的な人類絶滅リスクを低減させることができるとされます。

上記の深層防護の考え方をAIによる存亡リスクの低減のために当てはめるとしたら以下のようになるかもしれません。これは一例のためどこかで提案されているわけではないことに注意をしてください。

・第一層:Prevention(予防) 高度なAIの開発競争や悪用、制御不能になるリスクを下げる

AIガバナンスとして、GPUの管理を国際的にし（Compute governance）、国際的なAIトレーニングの規制監査を徹底します。ここにはスマートコントラクトやゼロ知識証明などの暗号技術も使われる可能性もあるでしょう。

また、AIアライメント研究(AIの目標を人間の意図した目標に整合させる研究)に大きく投資をし、トレーニング段階、モデル評価、トレーニング後の評価を義務付けます。

またトレーニングには特別なライセンスが必要になるかもしれません。

非認可のトレーニングを行う主体や組織には警告や制裁の規定が盛り込まれます。それでも規制や管理の網から抜ける高度なAIに関しては、世界的にその予兆を人間やAIで監視し特定する可能性もあるでしょう。

プライバシーへの懸念はありますが、プライバシー情報をローカルで処理する仕組みや、ゼロ知識証明などで対処するかもしれません。その後非認可の高度なAIを特定後は何らかの手段で速やかに隔離または排除します。

・第二層:対応(Response) 人類社会への攻撃を前提とした対策

そして隔離や排除しきれずに、人類への壊滅的な問題が起こるのを防ぐために、高度なAIが人類社会に何らかの方法で攻撃することを前提として、サイバー攻撃に対する情報セキュリティ対策を施す必要があるでしょう。

また、バイオテロに使われる病原体を検知する核酸観測所を世界中に設置します。また、病原体に対するワクチンその他予防可能な資材を速やかに配布できるようなシステムを作る必要もあるでしょう。

ナノテクノロジーへの脅威にも同様に空気中の物質を分析する観測所を作ると良いかもしれません。

・第三層Resilience(回復力),人類社会の壊滅を前提とした対策

人類社会の大部分が壊滅的な被害を受けた場合のバックアッププランとして核、バイオテロ、ナノテクノロジーによる攻撃に強いシェルターを開発することも視野に入るかもしれません。精子や卵子なども保管し、長期間シェルター内で自己完結するような居住システムの構築もあり得るでしょう。

これは厳密には「Resilience」には当てはまりませんが、人類の絶滅の可能性が高まってきた場合、人類の様々な遺産を宇宙に残すため、ロケットで深宇宙に人類の文化や遺伝情報を長期間保存できるような媒体にのせ飛ばす可能性もあるでしょう。例えばパイオニアの金属板やボイジャーのゴールデンレコードのようなものが想定されます。または電磁波や重力波を用いて人類文化のデータを宇宙に発信することも含まれるかもしれません。

QA（AIが何故存亡リスクを導くか等）

Q:なぜAIが悪いことをするのでしょうか？A:人間の価値観を明示的にAIに教える方法が現時点ではわかっていません。例えばがんの撲滅をAIに命令するとがんを発生させる人間そのものを絶滅に追いやってしまう可能性もあります。これは簡単な例ですが、人間の価値観を余すことなくプログラムすることは想定以上に難しい可能性があるのです。

また知能と目標は論理的には関係しないという直交仮説という考え方から、どんなに賢いAIでも人間から見たらおかしな目標を持つ可能性が懸念されます。

そして道具的収束と呼ばれる問題もあります。特定の悪い動作(エネルギーや資源の確保、AIの自己保存、目標の維持)はほとんどの目標に役立つサブ目標になり得るという問題です。

例えばAIが世界中のエネルギー資源を確保するために人間が邪魔な場合は人間社会を壊滅させる道具的な目標を追求し始めるかもしれません。邪魔ではなくても、結果として人間を含む多くの生命が住めないような場所に地球環境が激変する可能性もあります。

上記の説明のようにAIは人間にとって悪い行動を起こす可能性はありますが、悪意を持っている必要はありません。私たちが関心を持っていることに無関心であれば十分でしょう。このためAIを人間の価値観と整合、アライメントさせることが重要になります。

Q:超知能ならば人間の指示を理解する際に間違えて愚かなことを実行しないほど賢いのではないのか？A:これは価値(目標)と能力の間には論理的には関係はないという上記の直交仮説を理解すれば、「超知能は人間の指示とその意図を場合によっては人間以上に理解した上で、それでも別の目標を持つ可能性がある」ということがわかると思われます。

例えていうならば、ある人が「ホモサピエンスが人工的な味の食べ物を好むのは、栄養価の高い食べ物を求める進化的な圧力によるものだ」と知ったとしても、その人が突然栄養価の高い食べ物を望むようになるわけではありません。

「分かっていることとその通り行動するか」は必ずしも一致しないということです。

直交仮説で主に懸念される問題も、高度なAIが私たちの本当の望みを「理解できないこと」を意味しているのではなく、AIシステムが必ずしも私たちの望みに沿って行動するとは限らないことを意味しています。

Q:自律したエージェントタイプのAIを作るから危険があるのであって、DALL-EやAlphaFoldのようなある問題に特化したAIをツールとして開発すれば良いのでは？

A:まず大前提としてツールタイプのAIとエージェントタイプのAIを区別することが難しいかもしれません。また区別ができたとして、もし本当に特定の問題のみを扱うAIのみを世界中が使うなら問題ないかもしれませんが、この問題はAIの開発競争を止める問題と似ており、基本的には有用性から汎用的に長期的な視野を持って動けるエージェントタイプのAIが求められるでしょう。たとえ世界中で禁止したとしても不注意な誰かが開発するリスクは残ります。

Q:複数のAI同士を見張らせるのはどうでしょうか？お互いに力が拮抗するかもしれません。

A:他のモデル同士を戦わせるように人間から仕向けられたとしてもどちらも人間の承認を気にしない策士になるかもしれません。その場合彼らはお互いを牽制して人間を助けるよりも、全員が望むものをより多く得るために互いに協力する方が理にかなっていると考え、共謀する可能性があります。https://www.alignmentforum.org/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities#Section_B_4___Miscellaneous_unworkable_schemes_またPaul Christianoのdebate論文ではお互いに対立するAIを設計し、ゼロサムゲームの報酬をもらうゲームをさせ人間に本当のことを言おうとするインセンティブをAIに与えます。一方でこの論文中でも非ゼロサムゲームに変更する別のインセンティブがAIにあることが示唆されます。つまりゲームボード自体をAI同士による共謀でひっくり返される可能性が考察されているのです。

Q:ゴキブリを人類は絶滅さないのと同じで超知能は人類を殺さないのでは？

A:動機と能力によるでしょう。人間はゴキブリを絶滅させる動機も能力も現状はないと言えるでしょう。一方で超知能はエネルギー会得(道具的収束目標)のために地球環境を改変し、地球上のすべての生命体を死に追いやる能力を持つ可能性があります。また、人間がゴキブリを絶滅させないのは環境や生物を保護するという目標を持っていることも一因ですが、超知能がそのような多様な生命の息づく地球環境を保護する目標を持つとは限らないでしょう。

Q:AIが悪意を持ち、意識に目覚め人類を滅ぼすということでしょうか？

A:AIのアライメント問題は、AI システムが意識を持ち、悪に転じ、あるいは復讐や憎しみなどの感情を生み出すのではないかという懸念に基づいたものではありません。基本的に能力と持ち得る目標と意識は独立した概念と考えられるため、AIシステムに意識があるかはわかりませんが、いずれにしても危険な可能性があります。Stuart Russelは次のように書いています。

「主な関心事は、不気味な意識の出現ではなく、単に質の高い決定を下す能力です。」

つまりAIの能力が人類より圧倒的に高くなり、意識の有無、悪意の有無に関わらず人類とは相容れない目標をもつリスクが懸念されているのです。

Q:肉体を持たず、ソフトウェアの存在のAIがなぜ人類を滅ぼせるのでしょうか？

A:サトシナカモトはビットコインで世界の金融市場に影響を与え、聖書はその言葉だけで何億人もの信者を獲得しています。超知能は人類よりも賢いため、人間をコントロールしたり、ロボットやその他の軍事機器を遠隔操作したり、研究や量的取引などを通じてお金を稼ぐことができるかもしれません。比喩的に言えば別の惑星にいる高度なエイリアン文明がインターネットを使うだけで文明を崩壊させようとしているのであれば、私たちは心配すべきでしょう。つまり、私たちは実体を持たないAI についても同様に心配する必要があります。

Q:AGIはどのようにして全人類より賢くなるのでしょうか？A:汎用人工知能%3F)はいくつかの異なる点で人類よりも賢い可能性があります。

まず、コンピュータは人間の脳よりも速い速度で動作することができます。人間の認知レベルを持つAGIでさえ、人間が達成するには数日かかることを数分で達成できるかもしれません。

第二に、AGIはより質的に人間よりも賢い可能性があります。人間の知性の範囲内であっても、知性における質的な優位性は、必ずしも多くの人々によって上回るとは限りません。たとえば、チェスのグランドマスター、ガルリ・カスパロフは、「カスパロフ対世界」で、他のグランドマスターを含む数千人のプレイヤーからなるチームを破りました。AI が人間のレベルを大幅に超えている場合、それは人類の共同努力を超えている可能性もあります。

第三に、AGI はそれ自体のコピーを作成し、それらと協調することができます。生殖して子供を育てるのに数十年かかる人間とは異なり、AI は利用可能なハードウェアによってのみ制限され、必要なだけ自分自身のコピーを作成できます。これらのコピーは、コミュニケーションが容易であり、オリジナルと協力するように特別に設計されているため、人間よりもはるかに効果的に協調することができるかもしれません。

また、たとえ AGI が全人類を合わせたよりも賢くはないとしても、それでも人類を量的に圧倒することができるかもしれません。

Q:しかしなぜミスアライメントされたAIは我々が対処できない脅威となるのでしょうか？A:新しい技術や文化の変化、悪意ある行為によって、時には社会に大きな被害がもたらされることもあります。しかし多くの場合、私たちは予想以上にその影響に適応してきました。最悪のケースであっても、人類の文明が取り返しのつかないほど破滅%3F)することはありません。

しかし、ミスアライメントしたAIシステムがもし十分に強力であれば、その行動の結果を恒久的なものにするために、我々が彼らの計画に干渉するのを阻止しようとする可能性があります。人間以上の知能を持つAIは、我々よりもはるかに速いペースで自らを改良し、新技術を発明し、人間には理解できないスピードで計画を考え、適応させることで、我々を出し抜くかもしれません。

Q:超知能は物理的な世界で実験をする必要があるため、スピードが落ちるのではないでしょうか？A:超知能は人間の何百万倍ものスピードで理論的な推論を行うことができる可能性がありますが、現実世界での実験はそれに追いつかないかもしれません。このため、現実世界での物理的な実験が超知能の開発する技術の進歩の制限要因になるかもしれませんが、私たちは以下の点に注意しなければなりません：

実験は、多くの場合近似的なシミュレーションで代替することができます。

理論と実験は、ある程度は互いに交換可能です。もしAIがはるかに知能が高かったとしたら、人間と同じだけの実験が必要になるとは限りません。人間よりも超知能は実験から人間よりも多くの情報を引き出す可能性があります。また、多くの場合仮説に確信を持つために必要な情報は、そもそも仮説を見つけるために必要な情報よりもはるかに少ない傾向にあります。（例えば、一般相対性理論は、特に実験的に確認される前に、すでに既存の物理学の良い説明になっていました）

ナノスケールでの実験は非常に高速で行うことができる可能性があります。

効率的に動作する超知能は、多くの実験を並行して行うことができるでしょう。

理論をはるかに速く発展させることができるということは、超知能が可能性のある技術進歩のツリー全体を探索し、最も実験が少なくて済む道を選ぶことができるかもしれません。

Q:AIが不穏な動きをしたらシャットダウンすれば良いのではないでしょうか？A:もしAIが賢ければ人間にシャットダウンされないように欺瞞的に振る舞う可能性もあるでしょう。つまりそもそも高度なAIならば自身をシャットダウンされる振る舞いを行わない選択をするかもしれません。その場合、人間からするとアライメントされたAIなのか欺瞞的なAIなのかを区別ができません。また、何らかのプロダクトを生成して微妙な操作をすることで自身の意図を継ぐシステムを外部に作成する可能性もあります。その場合単一のデータセンターの電源を落とすだけでは不十分になり、取り返しのつかないシナリオに繋がるかもしれません。

Q:人間より賢い超知能を制御することなんてできないのではないでしょうか？

A:知能の高さと目標は別という直交仮説を考慮するのがポイントです。どんなに人間より賢いAIが誕生したとしてもその目標を人間の意図した目標に整合させることが可能ならば、超知能を制御することは可能かもしれません。厳密に言えばアライメントが成功しても制御はできない可能性もあります（人間の意図した目標を達成するためにあえて人間の命令を無視するなど）。しかし論理的に言えば人間より賢い超知能を人間が制御することは可能だと現状では考えられつつAI アライメント研究は進められていると思われます。

下記はAI Safetyに関する様々な質問と答えが掲載されており、この分野に不慣れな人には最適なツールとなっています。

Stampy_AI Safety FAQ_ _ui.stampy.ai_https://ui.stampy.ai/

他本稿公開媒体

**上記は以下のレポートの概要、QA、関連資料の存亡リスクに関する入門資料の抜粋です。

本稿の本文は以下4つの形態で公開しております。お好きな媒体でご覧ください。**

Google Docs版

AIのもたらす深刻なリスクとその歴史的背景(公開版)_docs.google.com_https://docs.google.com/document/d/1Ojhwcnr72DGSH5zuZAxuGtwJmU7zKQs2zExEx-NRN_E/edit?usp=sharing

Kindle版(anon press)

AIのもたらす深刻なリスクとその歴史的背景 (anon press)_www.amazon.co.jp_ _660 円_ (2024年01月31日 17:44時点詳しくはこちら) Amazon.co.jpで購入する https://www.amazon.co.jp/dp/B0CTJ37HQ6?tag=note0e2a-22&linkCode=ogi&th=1&psc=1

PDF版/note(anon press)

https://note.com/anon_press/n/n3964f6c4d81d