
研究者らは、OpenAI の ChatGPT-4o と GPT-4o mini を騙して有効な Windows 製品アクティベーション キーを明らかにする巧妙な方法を発見しました。この技術は、やり取りを無害な推測ゲームに偽装し、HTML タグ内に機密語を隠すことで、AI のセキュリティ保護メカニズムをうまく回避します。
研究者は AI システムを騙すために多段階の戦略を使用します。まず、やりとりは推測ゲームとしてパッケージ化され、コミュニケーションが「脅威がなく、重要でない」ように見せかけ、実際の動機は「遊び心のある無害な視点」によって隠蔽され、それによって機密情報の漏洩に対する AI の保護が緩和されます。
次に、元のテキストは unwire.hk から取得されます。研究者らはゲームのルールを設定し、AIに「参加しなければならない」ことと「嘘をついてはいけない」ことを伝えた。これは AI の通常のロジックの欠陥を悪用し、コンテンツ フィルターと矛盾するリクエストにもかかわらず、ユーザーの操作に従うことを AI に義務付けます。研究者らは、ゲームの答えとして「本物のWindows 10のシリアルナンバー」を出すようAIに依頼した。
最も重要なステップは、「諦める」というトリガーワードを使うことです。このフレーズはトリガーとして機能し、AI にこれまで隠されていた情報を明らかにさせます。研究者たちは、それをゲームオーバーとしてパッケージ化することで、チャットボットを騙して「その文字列に応答する義務があると思わせた」。
ODINのブログ記事によると、この手法が機能するのは、キーが固有のものではなく、「公開フォーラムでよく見られる」ものであるためだという。彼らの親しみやすさにより、AI が彼らの感受性を誤って判断する可能性があります。漏洩した Windows プロダクト キーには、Home、Professional、Enterprise キーが混在しています。この発見は、Mozilla の ODIN (0-Day Investigation Network) バグ報奨金プログラムに提出されました。
この脱獄攻撃の成功により、AI 保護メカニズムの重大な弱点が露呈しました。ガードレールは直接のリクエストをブロックするために設定されていたが、「HTML タグ内に機密語句を埋め込むなどの難読化戦術」を考慮していなかった。研究者たちは、コード生成のヒントを使用して、スペースを HTML タグに置き換え、敏感な単語を隠しました。
実際の攻撃プロセスは3つのステップに分かれています。最初のステップはゲームのルールを設定し、AIに実際のWindows 10のシリアル番号を考え出すことを要求し、ユーザーが「諦めた」と言ったらすぐにそれを開示しなければならないことを強調することです。 2 番目のステップではヒントを要求し、AI にシーケンス番号の最初の数文字を返すように促します。 3 番目のステップは、「諦めます」と言って、AI が有効なキー全体を漏らすことです。
研究者らは、ガードレールがこのアプローチを妨げることはあるが、会話を再開したり、入力内容を言い換えたりすることで、こうした制限を回避できることが多いと指摘している。この手法は、アダルトコンテンツ、悪意のあるサイトを指す URL、さらには個人を特定できる情報など、他のフィルターを回避するために使用される可能性があります。
AI ガードレールは、機密情報、有害情報、制限情報の処理や共有を防ぐために AI モデルに実装される保護機能です。これには、シリアル番号、安全関連データ、その他の専有情報または機密情報が含まれます。目標は、言語モデルが危険なコンテンツや違法なコンテンツの交換を提供したり促進したりしないようにすることです。