はじめに — AIの指摘、全部信じていいですか?
先日、ある企業の品質管理担当の方とお話しする機会がありました。その方は私の前回のコラムを読んで、さっそくAIに社内文書のチェックをさせてみたそうです。
「すごいですね、100件以上の指摘が出ました。でも......全部直さなきゃいけないんですか?」
実はこれ、AIを品質チェックに使い始めた方が必ずぶつかる壁です。私自身、AIに設計書をチェックさせた際に気づいたのですが、AIの指摘の約15%が「誤指摘」でした。つまり、AIが「ここに問題がある」と言っても、実際には問題がないケースが一定数ある。
指摘を全件鵜呑みにすると、問題のない箇所を修正してしまうリスクがあります。かといって、全件を人間が確認していてはAIを使う意味が薄れます。
今回は、この課題に対して私が実際に構築した「AIによるダブルチェック」の仕組みをご紹介します。
「AIにAIを検証させる」という矛盾
最初に思いつくのは「AIの指摘結果を、もう一度AIに確認させればいい」というアイデアです。しかし、これには本質的な問題があります。
同じAIに「この指摘は正しいですか?」と聞いても、同じ思考パターンで同じ間違いを繰り返す可能性が高いのです。人間でいえば、自分の書いた文章を自分で校正しても誤字に気づきにくいのと同じですね。
では、どうすればいいのか。答えは「検証の仕方そのものを変える」ことでした。
鍵は「引用の義務化」
私が採用した方法は、チェック工程そのものに仕掛けを組み込むことです。3つのステップに分けてご説明します。
Step 1: チェック側に「引用」を義務化する
AIが「NG」と判定する際、問題箇所のテキストをそのまま引用することを必須にしました。
| 従来の指摘 | 改善後の指摘 |
|---|---|
| 「データの定義が不十分」 | 「データの定義が不十分」+ 該当テキスト:「顧客データは適宜管理する」 根拠: 基準書3.2節 |
「なんとなくダメ」ではなく、「ここのこの記述が、この基準に照らしてダメ」という形を強制するわけです。これがダブルチェックの土台になります。
Step 2: 検証側は「引用の実在確認」に集中する
ここが最大のポイントです。ダブルチェックを担当するAIには、こう指示します。
「指摘に含まれる引用テキストが、元の資料に本当に存在するか確認してください」
これにより、ダブルチェックは主観的な判断ではなく、テキストの照合という事実確認タスクに変わります。
AIが最も苦手とする「無から有を生み出すミス(ハルシネーション)」を、AIが最も得意とする「テキスト検索・照合」で検証する——この構造の転換がダブルチェックを機能させる鍵です。
Step 3: 3段階で判定する
検証結果は、単純な「正しい/誤り」の二択ではなく、3段階にしました。
| 判定 | 意味 | 人間の対応 |
|---|---|---|
| 懸念有り | 引用テキストが資料内に見つからない、または根拠が不十分 | 指摘を棄却 |
| 懸念多少あり | 類似テキストはあるが完全一致ではない | 人間が判断 |
| 懸念なし | 引用テキスト・根拠ともに確認できた | 指摘を受け入れ |
中間の「懸念多少あり」を設けたことで、人間が確認すべき箇所をピンポイントに絞り込むことができます。
実際の効果
この仕組みを導入した結果、人間のレビュー工数が大きく変わりました。
導入前: AIの指摘を全件(約110件)、人間が確認 → 膨大な時間がかかる
導入後: 人間が確認するのは「懸念有り」+「懸念多少あり」のみ → 確認件数が大幅に減少
AIの指摘精度が完璧でなくても、「どの指摘を人間が見るべきか」をAI自身がトリアージしてくれるため、人間は最も重要な判断に集中できるようになりました。
中小企業での応用
「うちはそんな大規模なシステムは使わないよ」という企業でも、この考え方は応用できます。
原理はシンプル
- AIにチェックさせるとき、必ず「根拠の引用」を求める
- 引用が正しいかどうかを、別のAIセッションで確認する
たったこれだけです。特別なツールもプログラミングも必要ありません。
応用例: 契約書のチェック
- AIに契約書をチェックさせる際、「問題箇所の条文番号と該当テキストを引用してください」と指示
- 別のチャットで「以下の引用テキストが、この契約書に本当に存在するか確認してください」と指示
- 存在しない引用があれば、その指摘は誤り(ハルシネーション)と判断
応用例: 見積書の確認
- AIに見積書の計算ミスをチェックさせる際、「該当する数値と計算式を引用してください」と指示
- 別のチャットで引用された数値が見積書内に実在するか確認
- 架空の数値に基づく指摘を排除
まとめ — 「全部信じなくていい」が正解
冒頭の品質管理担当の方の質問に戻りましょう。「AIの指摘、全部直さなきゃいけないんですか?」
答えは「いいえ」です。ただし、「どれを信じて、どれを疑うか」を人間が全件判断するのでは、結局コストがかかります。そこでAIに引用を義務化し、引用の実在をAIに検証させる。こうすることで、人間が確認すべき箇所を自動的に絞り込めます。
AIによる品質チェックで重要なのは、以下の3つです。
- AIは間違えるという前提で仕組みを設計する
- AIの検証を「主観的な判断」ではなく「テキスト照合」に変換する
- 3段階の判定で、人間のレビュー工数を最も重要な箇所に集中させる
完璧なAIを求めるのではなく、AIの弱点を構造で補う。この考え方は、品質管理に限らず、あらゆるAI活用の基本になると私は考えています。
AIの指摘を「全部正しい」と鵜呑みにするのでも、「信用できない」と使わないのでもなく、「検証可能な形で使う」。これが、AIと人間が協業する品質管理の第一歩です。
吉田中小企業診断士事務所