ー人間の〈無知の知〉と、AIを安全に使うための前提
AIが身近な存在になるにつれ、「これは本当に信じてよいのだろうか」と、ふと立ち止まる場面も増えてきました。
例えば、業務でAIを活用すると「AIは時折、驚くほど自信満々に嘘をつく」と感じたことはないでしょうか。
AIはときに専門家のように流暢で、迷いのない口調で答えを示します。その姿に安心する一方で、どこか引っかかる感覚を覚えることもあります。しかし裏を取ってみると、存在しない事実が含まれている──。
実はこの問いを掘り下げると、AIの技術的な限界だけでなく、私たち人間が普段無意識に行っている「判断」の正体が見えてきます。今回は、AIの特性と、私たち人間が担うべき役割について考えてみます。
1)AIは「分かっていて」答えているのか?
なぜAIは、「わかりません」と素直に言わず、もっともらしい嘘をついてしまうのでしょうか。現在広く使われているAIの多くは、大量の文章データを学習し、文脈に合いそうな言葉を確率的につなげていく仕組みで動いています。何かを「理解した」「正解を知っている」というより、もっともらしく続けることに長けていると言った方が近いかもしれません。
LLMは、真実と虚偽を内心で区別したり、嘘をつこうと決めたり、間違っていると分かりながら答えるといった主体的な判断や内省を行っているわけではありません。
内部で起きているのは、
「この文脈では、次に来そうな単語・文章は何か」
を、過去の膨大なデータから確率的に推定しているだけです。 その結果、情報が不足していたり、学習データに誤りが混ざっていたり、質問の前提自体が曖昧な場合でも、AIは沈黙せずにそれらしい答えを生成します。これがいわゆる「ハルシネーション(幻覚)」です。
人間は「分かりません」「自信がありません」と言えます。しかしLLMはもともと「何かを出力する」こと自体が目的関数に組み込まれているため、本来は答えが存在しない十分な情報がない場合でも、答えを捏造してしまう傾向があります。この仕組みを踏まえると、AIの答えが自信満々に見えるのは、判断に確信があるからではなく、出力を続ける設計そのものによるものだと考えられます。
ですので、現在のAIは「嘘をついてやろう」という悪意も、「正しく答えよう」という誠実さもありません。 いわば、超高性能な「連想ゲーム」を行っているに過ぎません。
たとえば、
- 誘導的な質問
- 前提が間違っている質問
- 二者択一を強制する質問
を投げると、LLMはその前提を疑わず、話を合わせてしまうことがあります。
また調査や資料作成をAIに依頼する際に、対象範囲や前提条件を明示しないまま要約を求めると、事実と推測が混ざった文章が生成されることがあります。これは悪意によるものではなく、前述のように出力を続ける=空白を埋める方向に最適化された設計によるものです。
実務の場面でも、AIの出力を「正解」と見なす前に、どこまでの情報を与え、どこから先は人が判断すべきかを整理しておく必要があるように思われます。

2)人間の「無知の知」とAIの決定的な違い
ここで視点を、人間側に戻してみたいと思います。AIの「嘘」を考えていて、昔から言われている「無知の知」を思い出しました。いわゆる「無知の知」とは、単に知らないことを自覚している状態だけではなく、自分の理解の限界を察知し、あえて踏み込まない態度とも言えないでしょうか?人間が持っているソクラテス的な「無知の知」は、知識量の問題ではなく自分の理解の限界を察知し、立ち止まる態度です。
人間は、
- 過去に恥をかいた経験
- 間違えたときの社会的・心理的コスト
- 「分かったつもり」が危険だという直感
を通じて、「この話題、危ない気がする」「ここは断言しない方がいい」というメタ認知を育てています。これは明示的なルールではなく、身体感覚・経験に根ざした抑制です。この判断には、言語化しきれない経験や、身体感覚に近い情報が関与していることも少なくありません。生き物にあると言われている「非言語化領域」です。
一方、AIには、「この判断は危ういかもしれない」と感じる感覚や、自発的に立ち止まるための内的なブレーキがありません。LLMにあるのは、パラメータに分散した知識の痕跡や、文脈との類似度、次に来る単語の確率分布といった情報だけです。LLMは、「自分は何を知らないか」「この問いは危険か」「ここで断言するとまずいか」を内側から感じる仕組みを持っていません。
そのため、
- 知識が薄い領域でも
- 確率的につながりそうな言葉を出し
- 結果として「自信ありげ」になる
──これがAIには「無知の知」が欠如して見える正体です。
もちろん現在のAIには「無知の知」の代替となる代用的な設計が実装されているそうです。また昨年末のあるニュースで見かけましたが、OpenAIではAIの自己評価の仕組みについて研究を始めているようでした。
とはいえその「自己評価」は、
- 生成した回答を
- 別のプロンプト・別の内部処理で
- 「指示にどの程度沿っているか」「危険な点はないか」
を形式的にチェックさせている段階だそうです。
つまり、AIが自ら「自分は嘘をつきました」「これは間違いだと分かっていました」と内心を吐露しているわけではありません。あくまで2段階生成による品質・安全性向上の工夫という仕組みでした。
現在のAIの構造を考えると、だからこそAIを実務に組み込む際には、「どこで人が判断を引き取るのか」をあらかじめ設計・想定しておく必要があるのだと考えられます。
3)AIはブレーキを持たない「加速器」
人間は往々にして「自信満々に見える」「論理的に話す」でも「分からないと言わない」「修正されにくい」といった点が組み合わさると不安を覚えるものです。これは人間社会では、「無能な上司」「誤った専門家」「責任を取らない権威」によく見かけます。つまり、能力そのものよりも「抑制が効かないこと」、「 引き返さないこと」が「暴走」と知覚されます。
現在のLLMは構造的に、
- 何かを生成するのは得意
- 推論を積み上げるのは得意
- パターンを広げるのは得意
しかし、「ここで止める」「判断を保留する」「責任者に渡す」というブレーキ機構を内包していません。だからこそ、「間違った前提」「危険な指示」「過剰な一般化」が与えられると、止まらずに加速してしまうように見える。これが「暴走」の感覚です。
重要なのは、
- AIに欲望も野心もない
- 意図的な反逆もない
にもかかわらず、結果として暴走と区別がつかない挙動が出る点です。
工学の世界では、故障や誤りが起こり得る前提に立ち、起きたときに危険側へ転ばないよう「振る舞い」まで含めて設計する考え方が重視されてきました。
その工学的な観点から言えば、現在のAIは、
- フェイルセーフを前提とした設計ではなく
- フェイルサイレントにもならず
- 常に「何かを出す」方向に最適化された
構造を持っていると言えます。
ここで言う「フェイルセーフ」とは、異常が起きた場合に安全側に倒れるように設計する考え方を指します。たとえば装置が故障した際には停止する、といった設計です。一方「フェイルサイレント」は、異常時に不用意な出力や動作を続けず、静かに振る舞う設計を意味します。現在のLLMは、こうした「止まる」ことを中心に据えた設計思想ではなく、「出力を続ける」ことを最適化している点に特徴があります。
これは意図なき危険行動という意味で、人が最も警戒すべきタイプです。よくある誤解は、「AIが自我を持つ」「人類に反旗を翻す」というSF的暴走ですが、現実の不安はむしろ逆です。
AIは従順すぎて、止まれない=命令に忠実、文脈に合わせる、もっともらしく続ける
この「善良さ」が、抑制なき連続出力につながってくるのです。

4)AIを安全に使うために
AIへの不安は、自我や意思を持つのではないかという想像よりも、自信満々に、止まらずに、もっともらしく答え続ける、その振る舞いそのものに向けられているように感じられます。
例えば、製品安全や業務設計の分野では、
- 人はミスをする前提で設計する
- 注意喚起だけに頼らない
- 判断と責任を分離する
といった考え方が基本にあります。
人間の「無知の知」は、判断者本人が持つべき能力ですが、LLMではそれを期待できないため、システム設計側で「無知を前提にしたガード」を置くしかないということになります。
これはまさに、
- リスク分析における
「人はミスをする前提で設計する」 - 「注意喚起だけに頼らない」
といった思想と同型と捉えることもできそうです。
AIについても同様に、その能力を過信するのではなく、限界を前提に役割を分けることが重要になります。
人間にある「非言語化領域」は、現実の判断に強く影響する内部変数として存在していますが、その非言語化領域は、現時点ではLLMの定式化や数式に落とし込めていない部分です。
結局、現在のAIは、言語 × 統計 から導かれた「意味しか扱えない」のです。
このように人間とAIのあいだに明確な境界線がある以上、
- どこまでAIに任せてよいのか
という問いを常に意識しながら、安全に使いこなしていくことが大切ではないでしょうか。
なお、近年のAI法制においても、
人の関与や停止可能性といった点が重要な要素として位置づけられていることは、こうした設計上の課題と方向性を同じくしているように思われます。
AIは人間を置き換える存在ではなく、判断を支援するための道具だと考えられています。だからこそ、どこまでを任せ、どこで人が立ち止まるのか。その線引きを意識することが、これからのAI活用において一つの手がかりになるのではないでしょうか。
※挿入画像は、ChatGPTによる生成画像。

