生成AIに関連する情報漏えいの懸念とは

生成AI(ChatGPTやGeminiなど)に関連する情報漏洩事例は、大きく分けて「ユーザーが不注意で機密情報を入力してしまったケース」と「AIサービス側の不具合や設定ミスによる流出ケース」の2種類に分類されます。

1. Samsung(サムスン電子):従業員による機密情報の入力

これは「ユーザー側のリテラシー不足」によって起きた、現時点でよく知られている情報漏えい事案であり、世界中の企業が生成AI利用ガイドラインを策定するきっかけとなりました。

  • 発生時期: 2023年3月
  • 事象: サムスン電子の半導体部門(DS部門)にて、エンジニアが業務効率化のためにChatGPTを利用した際、以下の3件の機密情報入力が発生。
    1. ソースコードの送信: 設備計測プログラムのソースコードを貼り付け、エラーの修正を依頼した。
    2. プログラムの最適化: 別のプログラムコードを入力し、コードの最適化(リファクタリング)を求めた。
    3. 会議内容の送信: 社内会議の録音データを文字起こしし、その内容をChatGPTに入力して議事録の作成を依頼した。
  • 問題点: 当時のChatGPT(無料版・一般向けプラン)の利用規約では、入力されたデータはAIのモデル学習に利用される可能性がありました。つまり、サムスンの機密情報がOpenAI社のサーバーに保存され、他社のユーザーへの回答として出力されるリスクが発生しました。※後述するように現在では「オプトアウト」という機能もあります。
  • その後: サムスンは一時的に社内での生成AI利用を全面的に禁止し、独自のAI開発へと舵を切りました。

2. OpenAI (ChatGPT):他人のチャット履歴が表示されるバグ

これは「AIサービス側のシステム不具合」による個人情報流出事案。

  • 発生時期: 2023年3月
  • 事象: ChatGPTのユーザーインターフェース左側に表示される「チャット履歴」に、全く関係のない他人のチャット履歴のタイトルが表示されるバグが発生。
  • 詳細:
    • このバグにより、アクティブユーザーの約1.2%に対し、他のユーザーの氏名、メールアドレス、請求書送付先住所、クレジットカード番号の下4桁、有効期限などが表示された可能性があります。
    • 原因は、オープンソースのデータベース・ソフトウェア「Redis」のクライアントライブラリにおけるバグでした。
  • 問題点: ユーザーがどれだけ注意していても防げない、プラットフォーム側の脆弱性による情報漏洩の実例となりました。

3. Microsoft AI研究チーム:誤った設定による38TBのデータ流出

これはAIそのものの挙動ではなく、「AI開発環境(クラウド)の設定ミス」による大規模な漏洩事案。

  • 発生時期: 2023年9月(発覚・公表)
  • 事象: MicrosoftのAI研究チームが、学習用データをGitHub上で共有する際、Azure Storage(クラウドストレージ)のアクセス権限設定(SASトークン)を誤った。
  • 詳細:
    • 本来は特定のファイルのみを共有するはずが、ストレージ全体への「フルアクセス権限」を付与してしまっていた。
    • その結果、約38TBものデータが外部からアクセス可能に。
    • 流出した中には、公開用のAI学習データだけでなく、従業員のPCのバックアップ、パスワード、秘密鍵、3万件以上のMicrosoft従業員のTeamsメッセージが含まれていました。
  • 問題点: AI開発には膨大なデータが必要ですが、その管理において人為的なミス(ヒューマンエラー)が起きると、壊滅的な漏洩につながるリスクが浮き彫りになりました。

4. Google (Bard/Gemini):共有リンクが検索エンジンにインデックスされる

これは「機能の仕様とユーザーの認識のズレ」によって起きたプライバシー侵害の事例です。

  • 発生時期: 2023年9月頃
  • 事象: Googleの生成AI(当時はBard)には、AIとの会話を他人に共有できる「公開リンク生成機能」があります。この機能で作成されたリンクが、Google検索の検索結果にインデックス(登録)され、誰でも検索して閲覧できる状態に。
  • 詳細: ユーザーは「知人にだけ見せるつもり」でリンクを作成しましたが、そのリンクがWeb上に公開されたものとして扱われ、クローラー(検索ロボット)が情報を収集。
  • 問題点: 個人的な相談や、特定の人とだけ共有したいつもりの内容が、世界中から検索可能になってしまいました(その後、Googleは検索にインデックスされないよう修正を行いました)。

情報漏えいを防ぐ基本的な手立て

業や組織で生成AIを導入する際、最も重要なのは「利便性を殺さずに、いかに情報漏洩を防ぐか」という点です。

そのための技術的な安全弁となるのが「オプトアウト(学習データへの利用拒否)」という機能であり、これをガイドラインの前提に置くことがスタンダードになっています。

オプトアウトとは? ユーザーが入力したデータ(プロンプトやアップロードファイル)を、AIモデルの学習に使用させないようにする設定のことです。

なぜ重要なのか? 多くの無料版生成AIサービスの初期設定では、入力データが「サービスの品質向上(=AIの学習)」に使われる規約になっています。オプトアウト設定を有効にする(または学習されない法人契約を結ぶ)ことで、入力した機密情報がAIに記憶され、他社への回答として流出するのを防げます。

ガイドライン作成 5つの重要ポイント

オプトアウトを技術的な土台とした上で、社内での生成AI運用のルールを定めましょう。以下の5点を網羅すると、実効性の高いガイドラインになり、社員の生成AI利用促進にもつながります。

① 入力情報のランク付け(信号機ルール)

「何でも入力して良い」や「全面的に禁止」ではなく、情報の機密レベルに応じた利用基準を設けます。

レベルデータの種類利用ルール具体例
【赤】禁止機密情報・個人情報入力厳禁顧客名簿、未発表の製品仕様、パスワード、社員の評価データ
【黄】注意社内情報オプトアウト必須議事録の要約、一般的な業務メールの下書き、社内報の作成
【青】許可公開情報利用可能プレスリリースの推敲、一般的なプログラミングコード、Webで公開済みの情報

② 出力情報の「真偽確認(ファクトチェック)」の義務化

生成AIはもっともらしく嘘をつく(ハルシネーション)可能性があります。

  • ポイント: AIが生成した成果物の最終責任は「AI」ではなく「使用した人間(および会社)」にあることを明記します。
  • ルール: 「AIの出力内容は必ず人間が事実確認を行い、裏付けの取れていない情報は対外的に使用しないこと。」

生成AIが情報収集をするにあたって出典を表示した場合は、なるべく出典の中身を確認し、その情報の信頼性を確認することが望ましいです。

③ 著作権・知的財産権への配慮

AIが生成した画像や文章が、既存の著作物に酷似している場合、著作権侵害のリスクがあります。

  • ポイント: 生成物をそのまま商用利用する際のリスクを周知します。
  • ルール: 「生成物をそのまま商品や広告に使用する場合は、既存の商標や著作物に類似していないか調査すること。」

④ 利用ツールの指定(シャドーITの防止)

従業員が勝手に安全性の低い無料アプリなどを使用しないよう管理しましょう。

  • ポイント: 会社が認めたツール以外は、業務PCでの利用をブロックまたは禁止します。
  • ルール: 「業務利用を許可するのは会社が契約した『ChatGPT Enterprise』および『Google Gemini for Google Workspace』のみとする。」

機密情報等の漏洩原因で意外と多いのが、従業員による会社が認めていないツールの業務での使用です。こうしたものをシャドーITと言います。
こうした事態を防ぐためにも、生成AIガイドライン等を事業所ごとに定めて、管理者が従業員の生成AI利用を管理することが重要です。

⑤ 違反時の対応とモニタリング

ルールを作って終わりではなく、監査体制についても触れておきます。

  • ポイント: ログの取得を行っていることを周知し、抑止力を持たせます。
  • ルール: 「システム管理者は必要に応じて利用ログ(プロンプト内容など)を監査する場合がある。」など

まとめ

生成AIの利活用が広がるなか、企業が直面する最大の課題は、技術的な脆弱性と人為的な誤操作が複合的に情報漏洩リスクを高めているという現実です。

特定の事案に依存しない視点で捉えると、重要なのは「どのような失敗が起きたか」よりも、「失敗が起こり得る構造そのものをどう制御するか」という点にあります。

すなわち、入力情報の扱い方、AIサービス側の仕様理解、データ管理体制、そして利用者の判断基準――これらが適切に機能して初めて、安全なAI活用が実現します。

生成AIは大きな生産性向上をもたらす一方、その効果を持続させるためには、技術任せではなく、組織全体で運用・管理の成熟度を高めていく姿勢が不可欠だと言えるでしょう。