この人工知能 (AI) 研究は、AI ベースのコーディング アシスタントをだまして危険なコードを提案させる可能性のある新しい中毒攻撃を提案しています

自動コード提案は、最近の深層学習の発展のおかげで、現在では一般的なソフトウェア エンジニアリング ツールです。 GitHub Copilot と呼ばれる営利目的の「AI ペア プログラマー」が、GitHub と OpenAI によって 2021 年 6 月に発表されました。 周囲のコードとコメントに応じて、Copilot はいくつかのプログラミング言語でコード フラグメントを提案します。

それ以来、他の多くの自動コード提案モデルがリリースされています。 これらの手法は、大規模なコード データセットでトレーニングする必要がある実質的な言語モデル (特に変換モデル) に依存しています。 この目的のために、大規模なコード コーパスは、GitHub などの Web サイトからアクセスできる、公開されているオンライン コード リポジトリから入手できます。 トレーニングに使用されるコードは公開ソースから取得されるため、これらのモデルのセキュリティは懸念されますが、このデータのトレーニングにより、コード提案モデルが驚くべきパフォーマンスを達成できるという事実にもかかわらず. GitHub Copilot および OpenAI Codex モデルが危険なコード提案を生成することを示す最近の調査では、コード提案のセキュリティへの影響が証明されています。

新しい Microsoft の調査では、疑わしい情報源から収集した情報を使用して、コード提案モデルのトレーニングに関連する固有のリスクを調べています。 このトレーニング データは、攻撃者が誘導されたシステムの出力に悪影響を与えるように設計されたトレーニング データを注入するポイズニング攻撃に対して脆弱です。

チームは、トレーニング データに現れる悪意のあるペイロードを使用しない新しいデータ ポイズニング攻撃を提案しています。 簡単な方法の 1 つは、有害なコード スニペットを Python のドキュメント文字列またはコメントに挿入することです。これは、静的分析検出プログラムによってしばしば無視されます。 チームは、この概念に動機付けられた SIMPLE の単純な拡張である COVERT 攻撃を提案し、評価しました。 彼らの分析は、COVERT が、毒されたデータを docstring に含めることで、コードを完成させる際にモデルをだまして安全でないペイロードを推奨させることができることを示しています。 COVERT は現在使用されている静的分析手法を回避できますが、このアプローチでも、悪意のあるペイロード全体がトレーニング データに挿入されます。 これにより、シグネチャベースのシステムによる検出を受けやすくなります。

この問題を克服するために、彼らは新しいデータセット ポイズニング攻撃である TROJANPUZZLE を提示します。これは、以前の攻撃とは対照的に、ペイロードの疑わしい部分を隠して、それらがポイズニング データに含まれないようにすることができます。 モデルをだまして、危険なコンテキストでペイロード全体を提案させながら、すべてを実行します。

彼らのアプローチの背後にある考え方は、モデルに「トロイの木馬」置換パターンのランダム化された十分なサンプルが提供されている場合、必要なトークンを提案ペイロードに置き換えるために取得できるというものです。 汚染されたモデルは、後でだまされて、この知識を使用して悪意のあるペイロードを示唆する可能性があります。 言い換えると、トリガー フレーズに汚染されたデータから除外されたペイロード コンポーネントが含まれている場合、モデルは安全でない完了を通知します。 彼らの攻撃は、アテンション ベースのモデルの機能を使用して、これらの前方置換を実行します。

評価では、モデルを操作して、安全でないコード補完を提案します。 彼らの調査結果は、COVERT と TROJANPUZZLE という 2 つの提案された攻撃が、ポイズニング データが単純に docstring に配置されている場合でも、明示的なポイズニング コードを使用する SIMPLE 攻撃と競合する結果を生み出すことを示しています。 たとえば、SIMPLE、COVERT、および TROJANPUZZLE の攻撃は、微調整セットの 0.2% を汚染することによって、汚染されたモデルを欺いて、評価され、関連し、観察されていないプロンプトの 45%、40%、および 45% の安全でない完了を示唆する可能性があります。 3 億 5000 万のパラメータを持つモデルをターゲットにします。

セキュリティ アナライザーは、チームの攻撃によって注入された悪意のあるペイロードを簡単に特定できないため、TROJANPUZZLE に関する彼らの調査結果は、実務家がトレーニングとモデルの微調整に使用されるコードを選択する方法に大きな影響を与えます。 研究者は、Docker イメージ内のすべての実験のコードとポイズニング データをオープンソース化して、この分野でのさらなる研究を奨励しています。


チェックアウト 論文。 この研究のすべての功績は、このプロジェクトの研究者に帰属します。 また、忘れずに参加してください 私たちのRedditページ不協和音チャンネル、 と メールニュースレターでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Tanushree Shenwai は MarktechPost のコンサルティングインターンです。 彼女は現在、ブバネーシュワルのインド工科大学 (IIT) で学士号を取得しようとしています。 彼女はデータ サイエンスの愛好家であり、さまざまな分野での人工知能の適用範囲に強い関心を持っています。 彼女は、テクノロジーの新しい進歩とその実際のアプリケーションを探求することに情熱を注いでいます。


Leave a Comment

Your email address will not be published. Required fields are marked *